RECHERCHE

AdaSR : raisonnement adaptatif en flux continu avec optimisation hiérarchique de politique

AdaSR permet aux LLM de raisonner en temps réel sur des flux audio/vidéo partiels, sans attendre la fin de l'entrée.

arXiv cs.AI · cs.LG · cs.CL·Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao·12 juin 2026

Image · Source originale

AdaSR est un framework de raisonnement en streaming qui permet aux modèles de raisonner pendant la réception d'un flux d'entrée, puis d'effectuer une délibération finale une fois le flux terminé. Il introduit HRPO (Hierarchical Relative Policy Optimization), qui décompose l'optimisation en deux phases — raisonnement en flux et raisonnement profond — avec une attribution d'avantage plus fine que les approches séquentielles classiques. Les expériences montrent un meilleur équilibre entre précision, efficacité computationnelle et latence de streaming.

Chaleur 1

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#raisonnement #streaming #reinforcement-learning #LLM #HRPO