Toutes les news taguées avec ce sujet.
Un nouveau benchmark évalue la capacité des LLMs à inférer des règles cachées à partir de démonstrations et à les appliquer en plusieurs étapes.