Toutes les news taguées avec ce sujet.
Un agent contrôleur guide dynamiquement le raisonnement d'un LLM gelé via un processus de décision markovien, réduisant les tokens sans sacrifier la précision.
AdaCodec réduit drastiquement les tokens visuels vidéo en ne transmettant des frames complètes que lorsque la scène change vraiment.
Un framework de distillation réduit de 44× la taille d'un modèle VLA de 7 milliards de paramètres tout en conservant des performances quasi équivalentes.
Moonshot AI dévoile une nouvelle architecture d'attention linéaire conçue pour combiner expressivité et efficacité computationnelle.
EMO est une architecture MoE qui permet d'utiliser un sous-ensemble d'experts de façon indépendante, sans dégradation sévère des performances.