RECHERCHE

HERO'S JOURNEY : un benchmark pour tester l'induction de règles complexes via des jeux textuels

Un nouveau benchmark évalue la capacité des LLMs à inférer des règles cachées à partir de démonstrations et à les appliquer en plusieurs étapes.

arXiv cs.AI · cs.LG · cs.CL·Anshun Asher Zheng, Kanishka Misra, David I. Beaver, Junyi Jessy Li·1 juin 2026

Image · Source originale

HERO'S JOURNEY est un benchmark dédié à l'induction de règles dans des tâches épisodiques dirigées par objectifs. Il couvre huit tâches réparties en familles d'induction par attributs et par procédures, avec quatre formes structurelles de règles. Les évaluations sur des LLMs de pointe révèlent des capacités d'induction limitées et inégales, un goulot d'étranglement lors de l'exécution des procédures, et des méthodes de pilotage efficaces uniquement sur les tâches attributives.

Chaleur 1

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#benchmark #induction de règles #LLM #raisonnement #text games