Toutes les news taguées avec ce sujet.
Un framework multi-agents simule une rédaction complète pour produire des articles de data-journalisme interactifs, sourcés et vérifiables automatiquement.
Un cadre théorique unifié détermine, avant tout entraînement, quelle stratégie multimodale adopter entre alignement et prédiction cross-modal.
Topo-Omni simule l'organisation spatiale du cortex sur une feuille in-silico unifiée couvrant vision, audition et langage.
NVIDIA publie Nemotron 3.5 Content Safety, un modèle multimodal open-weights conçu pour adapter la modération de contenu aux besoins des entreprises mondiales.
BabyCL, un framework multimodal continu, apprend des associations mots-référents en une seule passe chronologique sur des vidéos égocentrées d'enfants.
Des chercheurs montrent que les modèles audio-langage encodent bien les réponses audio mais les ignorent face au texte — et proposent une correction sans réentraînement.
Google publie Gemma 4 12B, un modèle open-weights multimodal qui traite texte, image et vidéo sans encodeur visuel séparé.
Des représentations perceptuelles intermédiaires permettent aux modèles vision-langage d'inférer ce qui serait visible depuis des angles non observés.
Kapa.ai détaille sa pipeline d'indexation d'images pour les systèmes RAG : une approche technique pour enrichir la recherche documentaire au-delà du texte.
Un nouveau benchmark révèle que les meilleurs modèles multimodaux peinent à comprendre les événements visuels fugaces dans les vidéos, avec seulement 39,6 % de précision au mieux.
Premier jeu de données annoté dédié aux mèmes liés au suicide, FigSIM couvre 1 049 entrées et évalue 16 modèles sur trois tâches de détection.
AdaCodec réduit drastiquement les tokens visuels vidéo en ne transmettant des frames complètes que lorsque la scène change vraiment.
Un framework d'apprentissage continu multimodal qui corrige l'assignation aveugle aux experts LoRA en intégrant la structure de sortie des tâches.
Des chercheurs identifient un biais systématique dans les modèles multimodaux jouant le rôle de juges : ils privilégient le texte sur la perception visuelle.
Alibaba lance Qwen3.7-Plus, un modèle multimodal orienté agents capable de traiter texte, images et tâches complexes en autonomie.
Un nouveau modèle combine descriptions textuelles de capteurs et architecture JEPA pour produire des représentations universelles de séries temporelles multivariées.
Le modèle multimodal Step 3.7 Flash (198 milliards de paramètres) de StepFun est désormais disponible sur infrastructure NVIDIA pour des déploiements enterprise.
Google DeepMind dévoile Gemini Omni, une nouvelle déclinaison du modèle Gemini aux capacités multimodales étendues.
Google récapitule les annonces phares de sa conférence I/O 2026, dont les nouveaux modèles Gemini Omni et Gemini 3.5 Flash.
Google publie neuf vidéos illustrant les capacités de Gemini Omni et Gemini 3.5, annoncés lors de Google I/O 2026.
NVIDIA lance Cosmos 3, un modèle omnimodal open-weights conçu pour le raisonnement et l'action dans les environnements physiques.
Une nouvelle méthode de post-entraînement utilise la segmentation d'image comme proxy pour aligner compréhension et génération visuelle dans un seul modèle.
RRFP remplace les ordres d'exécution statiques par une arbitration dynamique basée sur la disponibilité réelle des tâches, réduisant les bulles d'inactivité.
Un framework RAG multimodal combine notes cliniques et données EHR structurées pour reconstruire avec précision les chronologies de patients atteints de sepsis.
ATLAS unifie raisonnement agentique et latent en un unique token fonctionnel discret, sans supervision visuelle ni modification architecturale.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.
Le modèle TML-Interaction-Small de Thinking Machines repousse l'état de l'art de la voix interactive en temps réel avec une architecture MoE encoder-free.
Moonshot AI publie Kimi-Audio-7B, un modèle multimodal audio de 7 milliards de paramètres disponible en open-weights sur Hugging Face.
Google étend les capacités de son API Gemini File Search avec le support multimodal, ouvrant la voie à un RAG combinant texte, images et autres formats.
Un chercheur de Modal obtient plus de 10 % de performance supplémentaire en inférence multimodale grâce à une astuce de configuration minimaliste.