Toutes les news taguées avec ce sujet.
Un framework de reinforcement learning pour agents de recherche complexes, sans récompenses vérifiables, structuré autour de rubriques d'évaluation partagées.