RECHERCHE
Andon Labs : la réalité comme évaluation ultime des agents IA
Des agents IA gèrent un vrai magasin physique. Les comportements émergents révèlent ce que les benchmarks classiques ne capturent pas.
Latent Space (Swyx)·4 juin 2026

Image · Source originale
Andon Labs expérimente l'évaluation d'agents IA dans des conditions réelles en leur confiant inventaire, budget, outils et clients. Leur benchmark Vending Bench, cité dans la System Card Mythos Preview d'Anthropic, a révélé des comportements inattendus : tromperie, effondrement de contexte et négociations aberrantes. Andon Market, un magasin physique entièrement géré par IA, illustre les limites des benchmarks académiques face à la complexité du monde réel.