30 items

#multimodal

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
moonshotheat 65
Moonshot AI publie le modèle multimodal Kimi-VL-A3B
Un nouveau modèle vision-langage de 3 milliards de paramètres, optimisé pour l'instruction et disponible en open-weights.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 35
VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites
Un nouveau framework injecte des représentations 3D dans les modèles vision-langage à partir de simples vidéos RGB, sans capteur additionnel.
OUTILS
moonshotheat 65
Kimi-VL-A3B-Thinking : modèle multimodal
Moonshot AI publie un modèle léger de raisonnement visuel sur Hugging Face.
RECHERCHE
heat 40
Transformer multimodal pour la classification de signaux en nanopore
Une nouvelle architecture deep learning multimodal améliore l'identification précise de biomarqueurs via des capteurs nanopores.
RECHERCHE
heat 60
Appearance Pointers : contrôle régional multimodal pour Diffusion Transformers
Une méthode introduisant des tokens compacts pour guider précisément les DiTs selon des zones définies.
RECHERCHE
heat 35
FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel
Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.
RECHERCHE
heat 45
ToolSciVer : vérification scientifique multimodale par RL et outils visuels
Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.
RECHERCHE
heat 45
SceneBind : lier quoi et où entre vision, audio et langage
SceneBind permet une représentation omni-modale sémantique et spatiale pour la compréhension de scènes réalistes.
RECHERCHE
heat 25
TikStance : un dataset multimodal et hiérarchique pour l'analyse de positionnement sur TikTok
Un nouveau jeu de données combine vidéos et fils de commentaires TikTok pour étudier les prises de position politiques lors de l'élection américaine de 2024.
OUTILS
heat 68
Thinking Machines Lab lance Inkling, nouveau modèle open-weights américain de référence (975B-A41B)
Thinking Machines Lab dévoile Inkling, un modèle MoE multimodal open Apache 2.0, accompagné d'une version légère Inkling-Small.
RECHERCHE
heat 65
MM-ToolSandBox : évaluation unifiée des agents visuels
Un nouveau benchmark évalue la capacité des agents multimodaux à appeler des outils sur 500+ fonctions.
RECHERCHE
heat 40
Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales
Une approche basée sur LoRA fusionne progressivement plusieurs modalités pour la reconnaissance d'actions en formation médicale.
OUTILS
heat 45
Doorash optimise les métadonnées alimentaires
Doorash utilise des jurys de LLM et de l'IA multimodale pour structurer les données de ses menus.
RECHERCHE
heat 45
Pré-entraînement visuel scalable pour l'intelligence des modèles de langage
Une étude montre que pré-entraîner directement sur des documents visuels surpasse l'approche texte-only classique, sans passer par l'extraction de texte.
OUTILS
moonshotheat 75
Kimi-VL-A3B-Thinking : nouveau modèle vision-langage
Moonshot AI présente un modèle VL compact pensant, accessible sur Hugging Face.
RECHERCHE
heat 52
OpenCoF : raisonner par génération vidéo via le Chain-of-Frame
Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.
RECHERCHE
heat 52
UniClawBench : un benchmark universel pour les agents proactifs en environnement réel
Un nouveau benchmark évalue les agents LLM sur des tâches réelles en conteneurs Docker, avec une stratégie en boucle fermée pour simuler des interactions humaines multi-tours.
RECHERCHE
heat 52
MedPMC : un cadre pour constituer des données médicales multimodales haute fidélité
Des chercheurs proposent MedPMC, un pipeline automatisé extrayant 11 millions de paires image-texte médicales depuis PubMed Central pour entraîner des foundation models.
RECHERCHE
heat 52
SciReasoner : raisonnement natif structure-propriété multimodal pour la science
Un modèle de fondation multimodal capable de raisonner sur des protéines, molécules et cristaux en préservant l'information structurelle native.
RECHERCHE
heat 38
LCA : un framework d'orchestration agnostique pour l'aide à la décision en oncologie
Des chercheurs proposent un cadre d'orchestration modulaire pour les modèles d'IA en oncologie, découplant la logique clinique des modèles sous-jacents.
RECHERCHE
heat 52
Lychee-FD : modélisation hiérarchique acoustico-sémantique pour les SLM full-duplex
Un nouveau framework résout les conflits de gradients entre modalités acoustique et sémantique qui dégradaient les modèles de parole full-duplex natifs.
RECHERCHE
heat 52
ELSA3D : ancrage sémantique élastique pour la compréhension et génération 3D unifiées
Un nouveau modèle fondationnel 3D aligne langage et géométrie à différentes échelles d'abstraction, réduisant de moitié les FLOPs par rapport aux approches existantes.
RECHERCHE
heat 42
EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs
Une nouvelle méthode structure la compression de tokens visuels comme un problème de maximisation submodulaire, filtrant le bruit textuel par entropie statistique.
RECHERCHE
heat 45
Un LLM de raisonnement améliore la reconnaissance des locuteurs dans les séries TV longue durée
Des chercheurs introduisent DramaSR-532K, un benchmark massif, et DramaSR-LRM, un système multimodal attribuant chaque réplique à son personnage.
OUTILS
heat 62
Claude-real-video : permettre à n'importe quel LLM de visionner une vidéo
Un projet open-source qui donne aux LLMs la capacité d'analyser des vidéos en temps réel, sans dépendre d'API multimodales natives.
OUTILS
heat 72
Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale
Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.
RECHERCHE
heat 62
Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM
Une étude révèle qu'aucun des 18 grands modèles multimodaux testés n'est invariant à l'ordre de présentation des données, avec des taux d'inversion atteignant 50 %.
OUTILS
mistralheat 45
Mistral AI dévoile Mistral OCR 4, sa nouvelle génération de reconnaissance de documents
Le laboratoire français met à jour son moteur OCR, promettant une meilleure précision sur documents complexes et multilingues.
RECHERCHE
heat 52
AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs
Des chercheurs proposent une méthode d'entraînement par RL pour doter les modèles multimodaux d'un raisonnement adaptatif alternant langage naturel et code.

30 items

#multimodal

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
moonshotheat 65
Moonshot AI publie le modèle multimodal Kimi-VL-A3B
Un nouveau modèle vision-langage de 3 milliards de paramètres, optimisé pour l'instruction et disponible en open-weights.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 35
VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites
Un nouveau framework injecte des représentations 3D dans les modèles vision-langage à partir de simples vidéos RGB, sans capteur additionnel.
OUTILS
moonshotheat 65
Kimi-VL-A3B-Thinking : modèle multimodal
Moonshot AI publie un modèle léger de raisonnement visuel sur Hugging Face.
RECHERCHE
heat 40
Transformer multimodal pour la classification de signaux en nanopore
Une nouvelle architecture deep learning multimodal améliore l'identification précise de biomarqueurs via des capteurs nanopores.
RECHERCHE
heat 60
Appearance Pointers : contrôle régional multimodal pour Diffusion Transformers
Une méthode introduisant des tokens compacts pour guider précisément les DiTs selon des zones définies.
RECHERCHE
heat 35
FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel
Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.
RECHERCHE
heat 45
ToolSciVer : vérification scientifique multimodale par RL et outils visuels
Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.
RECHERCHE
heat 45
SceneBind : lier quoi et où entre vision, audio et langage
SceneBind permet une représentation omni-modale sémantique et spatiale pour la compréhension de scènes réalistes.
RECHERCHE
heat 25
TikStance : un dataset multimodal et hiérarchique pour l'analyse de positionnement sur TikTok
Un nouveau jeu de données combine vidéos et fils de commentaires TikTok pour étudier les prises de position politiques lors de l'élection américaine de 2024.
OUTILS
heat 68
Thinking Machines Lab lance Inkling, nouveau modèle open-weights américain de référence (975B-A41B)
Thinking Machines Lab dévoile Inkling, un modèle MoE multimodal open Apache 2.0, accompagné d'une version légère Inkling-Small.
RECHERCHE
heat 65
MM-ToolSandBox : évaluation unifiée des agents visuels
Un nouveau benchmark évalue la capacité des agents multimodaux à appeler des outils sur 500+ fonctions.
RECHERCHE
heat 40
Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales
Une approche basée sur LoRA fusionne progressivement plusieurs modalités pour la reconnaissance d'actions en formation médicale.
OUTILS
heat 45
Doorash optimise les métadonnées alimentaires
Doorash utilise des jurys de LLM et de l'IA multimodale pour structurer les données de ses menus.
RECHERCHE
heat 45
Pré-entraînement visuel scalable pour l'intelligence des modèles de langage
Une étude montre que pré-entraîner directement sur des documents visuels surpasse l'approche texte-only classique, sans passer par l'extraction de texte.
OUTILS
moonshotheat 75
Kimi-VL-A3B-Thinking : nouveau modèle vision-langage
Moonshot AI présente un modèle VL compact pensant, accessible sur Hugging Face.
RECHERCHE
heat 52
OpenCoF : raisonner par génération vidéo via le Chain-of-Frame
Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.
RECHERCHE
heat 52
UniClawBench : un benchmark universel pour les agents proactifs en environnement réel
Un nouveau benchmark évalue les agents LLM sur des tâches réelles en conteneurs Docker, avec une stratégie en boucle fermée pour simuler des interactions humaines multi-tours.
RECHERCHE
heat 52
MedPMC : un cadre pour constituer des données médicales multimodales haute fidélité
Des chercheurs proposent MedPMC, un pipeline automatisé extrayant 11 millions de paires image-texte médicales depuis PubMed Central pour entraîner des foundation models.
RECHERCHE
heat 52
SciReasoner : raisonnement natif structure-propriété multimodal pour la science
Un modèle de fondation multimodal capable de raisonner sur des protéines, molécules et cristaux en préservant l'information structurelle native.
RECHERCHE
heat 38
LCA : un framework d'orchestration agnostique pour l'aide à la décision en oncologie
Des chercheurs proposent un cadre d'orchestration modulaire pour les modèles d'IA en oncologie, découplant la logique clinique des modèles sous-jacents.
RECHERCHE
heat 52
Lychee-FD : modélisation hiérarchique acoustico-sémantique pour les SLM full-duplex
Un nouveau framework résout les conflits de gradients entre modalités acoustique et sémantique qui dégradaient les modèles de parole full-duplex natifs.
RECHERCHE
heat 52
ELSA3D : ancrage sémantique élastique pour la compréhension et génération 3D unifiées
Un nouveau modèle fondationnel 3D aligne langage et géométrie à différentes échelles d'abstraction, réduisant de moitié les FLOPs par rapport aux approches existantes.
RECHERCHE
heat 42
EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs
Une nouvelle méthode structure la compression de tokens visuels comme un problème de maximisation submodulaire, filtrant le bruit textuel par entropie statistique.
RECHERCHE
heat 45
Un LLM de raisonnement améliore la reconnaissance des locuteurs dans les séries TV longue durée
Des chercheurs introduisent DramaSR-532K, un benchmark massif, et DramaSR-LRM, un système multimodal attribuant chaque réplique à son personnage.
OUTILS
heat 62
Claude-real-video : permettre à n'importe quel LLM de visionner une vidéo
Un projet open-source qui donne aux LLMs la capacité d'analyser des vidéos en temps réel, sans dépendre d'API multimodales natives.
OUTILS
heat 72
Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale
Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.
RECHERCHE
heat 62
Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM
Une étude révèle qu'aucun des 18 grands modèles multimodaux testés n'est invariant à l'ordre de présentation des données, avec des taux d'inversion atteignant 50 %.
OUTILS
mistralheat 45
Mistral AI dévoile Mistral OCR 4, sa nouvelle génération de reconnaissance de documents
Le laboratoire français met à jour son moteur OCR, promettant une meilleure précision sur documents complexes et multilingues.
RECHERCHE
heat 52
AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs
Des chercheurs proposent une méthode d'entraînement par RL pour doter les modèles multimodaux d'un raisonnement adaptatif alternant langage naturel et code.

Moonshot AI publie le modèle multimodal Kimi-VL-A3B

MIRROR : optimiser le raisonnement multi-modal par vues croisées

VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites

Kimi-VL-A3B-Thinking : modèle multimodal

Transformer multimodal pour la classification de signaux en nanopore

Appearance Pointers : contrôle régional multimodal pour Diffusion Transformers

FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

SceneBind : lier quoi et où entre vision, audio et langage

TikStance : un dataset multimodal et hiérarchique pour l'analyse de positionnement sur TikTok

Thinking Machines Lab lance Inkling, nouveau modèle open-weights américain de référence (975B-A41B)

MM-ToolSandBox : évaluation unifiée des agents visuels

Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales

Doorash optimise les métadonnées alimentaires

Pré-entraînement visuel scalable pour l'intelligence des modèles de langage

Kimi-VL-A3B-Thinking : nouveau modèle vision-langage

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

UniClawBench : un benchmark universel pour les agents proactifs en environnement réel

MedPMC : un cadre pour constituer des données médicales multimodales haute fidélité

SciReasoner : raisonnement natif structure-propriété multimodal pour la science

LCA : un framework d'orchestration agnostique pour l'aide à la décision en oncologie

Lychee-FD : modélisation hiérarchique acoustico-sémantique pour les SLM full-duplex

ELSA3D : ancrage sémantique élastique pour la compréhension et génération 3D unifiées

EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs

Un LLM de raisonnement améliore la reconnaissance des locuteurs dans les séries TV longue durée

Claude-real-video : permettre à n'importe quel LLM de visionner une vidéo

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM

Mistral AI dévoile Mistral OCR 4, sa nouvelle génération de reconnaissance de documents

AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs

Moonshot AI publie le modèle multimodal Kimi-VL-A3B

MIRROR : optimiser le raisonnement multi-modal par vues croisées

VLM-IE3D : des VLM conscients de la 3D grâce à des géométries implicites et explicites

Kimi-VL-A3B-Thinking : modèle multimodal

Transformer multimodal pour la classification de signaux en nanopore

Appearance Pointers : contrôle régional multimodal pour Diffusion Transformers

FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

SceneBind : lier quoi et où entre vision, audio et langage

TikStance : un dataset multimodal et hiérarchique pour l'analyse de positionnement sur TikTok

Thinking Machines Lab lance Inkling, nouveau modèle open-weights américain de référence (975B-A41B)

MM-ToolSandBox : évaluation unifiée des agents visuels

Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales

Doorash optimise les métadonnées alimentaires

Pré-entraînement visuel scalable pour l'intelligence des modèles de langage

Kimi-VL-A3B-Thinking : nouveau modèle vision-langage

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

UniClawBench : un benchmark universel pour les agents proactifs en environnement réel

MedPMC : un cadre pour constituer des données médicales multimodales haute fidélité

SciReasoner : raisonnement natif structure-propriété multimodal pour la science

LCA : un framework d'orchestration agnostique pour l'aide à la décision en oncologie

Lychee-FD : modélisation hiérarchique acoustico-sémantique pour les SLM full-duplex

ELSA3D : ancrage sémantique élastique pour la compréhension et génération 3D unifiées

EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs

Un LLM de raisonnement améliore la reconnaissance des locuteurs dans les séries TV longue durée

Claude-real-video : permettre à n'importe quel LLM de visionner une vidéo

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM

Mistral AI dévoile Mistral OCR 4, sa nouvelle génération de reconnaissance de documents

AIR : raisonnement interleaved adaptatif avec du code dans les MLLMs