ScarfBench évalue agents AI pour Java migration

ScarfBench évalue la migration des applications Java d'entreprise par des agents AI. Ce benchmark, annoncé par IBM et ses chercheurs, mesure les capacités des agents à migrer les applications entre les frameworks Spring, Jakarta EE et Quarkus. Le défi est d'assurer que les applications migrées s'exécutent correctement tout en préservant leur comportement, une tâche qui va au-delà de la simple traduction de code.

La migration des frameworks nécessite une adaptation complexe qui inclut le système de montée en charge, la configuration des dépendances et le comportement des applications. Selon l'étude ScarfBench, les applications doivent réussir à être compilées, déployées et validées sur le plan comportemental pour être considérées comme correctement migrées.

Les résultats de ScarfBench montrent que les agents AI actuels ont un taux de succès comportemental inférieur à 10% en migration complète. Le processus de migration met en lumière l'importance de la configuration, des services et des bases de données, avec des agents souvent surconfiants quant à leur capacité à déterminer quand une migration est terminée. Les problèmes fréquemment rencontrés incluent des incohérences de cache Docker et des problèmes de connectivité des ports.

ScarfBench souligne les défis liés non seulement à la transformation du code mais aussi à l'environnement et aux outils. Des problèmes opérationnels tels que les incohérences de cache Docker et les outils de build Maven sont souvent autant de sources de difficultés pour les agents. La plateforme ScarfBench offre un cadre d'évaluation rigoureux, mettant en exergue l'importance de l'itération et de la vérification indépendante dans les processus de migration.

Selon ScarfBench, la difficulté de la migration dépend fortement du cadre de destination, avec Jakarta EE comme particulièrement exigeant. Les agents passent la majeure partie de leur temps à résoudre des problèmes de configuration, soulignant l'importance de ce domaine dans les efforts de migration des agents AI.

ScarfBench évalue agents AI pour Java migration

Accès promotionnel à Claude Fable 5 jusqu'au 7 juillet

Anthropic réintroduit Claude Fable 5 sur le marché

Gemini 3.5 Flash intègre l'utilisation informatique