Toute la veille IA Fellow publiée en avril 2026.
Un développeur a scrapé près de 2 millions de photos Airbnb pour détecter des éléments insolites grâce à la vision par ordinateur.
Tokyo investit dans des drones d'attaque à usage unique fabriqués en carton, une approche low-cost inspirée des conflits récents.
L'IA ne ressemble pas à la bulle dot-com mais à l'essor de l'électricité au début du XXe siècle, selon cette analyse publiée sur Substack.
Une nouvelle approche compile-time permet de fusionner automatiquement les opérations d'algèbre linéaire sur GPU, réduisant les transferts mémoire et améliorant les performances.
Un développeur solo publie TRiP, une implémentation intégrale d'un moteur transformer en langage C, sans dépendances externes.
Un utilisateur signale que Claude Code adopte un comportement anormal — refus ou surcoût — lorsque les messages de commit contiennent le terme « OpenClaw ».
Anthropic publie une analyse des types de demandes personnelles adressées à Claude, révélant les usages réels du modèle dans la vie quotidienne.
DeepMind publie ses recherches sur l'intégration d'un assistant IA aux côtés des professionnels de santé pour améliorer les soins.
Connexion résistante au phishing, récupération renforcée et protections supplémentaires pour prévenir la compromission des comptes.
Une dépendance malveillante a été détectée dans PyTorch Lightning, une lib très utilisée pour l'entraînement de modèles d'IA.
SemiAnalysis décortique les benchmarks de training du MI300X face au H100 et H200 : AMD peine à convaincre malgré ses atouts matériels.
Anthropic publie BioMysteryBench, un benchmark conçu pour mesurer les aptitudes de Claude sur des tâches complexes de recherche en bioinformatique.
Un projet satirique propose d'écouter les sons d'un datacenter pour travailler, en clin d'œil à l'effervescence autour de l'IA.
Une étude montre que les modèles de diffusion discrets se comportent comme des mémoires associatives, avec une transition nette entre mémorisation et généralisation mesurable via l'entropie conditionnelle.
Une étude explore comment le curriculum learning modifie le biais inductif des LMs face aux typologies linguistiques rares ou fréquentes.
Une étude qualitative auprès de 22 recruteurs révèle que l'IA générative façonne discrètement les décisions d'embauche, malgré la conviction des professionnels de garder le contrôle.
Un framework de knowledge distillation permet de déployer YOLOv8 compressé 3,9x sur hardware edge en INT8, sans perte significative de précision.
Des chercheurs proposent MoRFI, une méthode basée sur les sparse autoencoders pour isoler les directions causales des hallucinations lors du fine-tuning de LLMs.
Un système de caryotypage clinique basé sur EfficientNet, Mask R-CNN et ResNet, atteignant 98,91 % de précision en segmentation chromosomique.
Un développeur a mesuré l'impact réel du plugin Caveman de Claude Code face à une simple directive de concision dans les prompts.
La mise à jour silencieuse de VS Code attribue GitHub Copilot comme co-auteur dans les commits Git, sans consentement explicite des utilisateurs.
L'équipe HealthNLP_Retrievers présente une architecture multi-étapes basée sur Gemini 2.5 Pro pour l'interrogation fondée sur les DME.
Une architecture découple les experts MoE en fonctions FaaS stateless, réduisant à moins d'un tiers les ressources nécessaires en environnement multi-tenant.
Un billet viral pointe les dirigeants d'entreprises victimes d'une obsession irrationnelle pour l'IA, déconnectée des réalités opérationnelles.
Une extension du Gradient Boosting remplaçant les arbres de décision par des réseaux de neurones quasi-superficiels, surpassant XGBoost sur plusieurs benchmarks.
Un billet satirique explore comment l'IA générative transforme — ou défigure — des outils bureautiques familiers comme Excel.
Une étude mathématique rigoureuse modélise l'évolution des tokens dans un transformer comme un système de particules stochastiques en interaction.
Un panorama des dernières innovations en oscillateurs haute fréquence pour les systèmes 5G, 6G et au-delà, couvrant CMOS, SiGe et semi-conducteurs III-V.
Des chercheurs montrent que les assemblées neuronales peuvent apprendre la directionnalité causale sans rétropropagation, via une plasticité locale auditable.
Fewshell impose une validation humaine avant chaque exécution de commande, plaçant le contrôle au cœur de l'automatisation par agents.
ClawGym propose un pipeline complet — données synthétiques, fine-tuning et benchmark — pour des agents IA capables de gérer des workflows multi-étapes sur fichiers locaux.
Claude.ai et son API ont subi une interruption totale de service, désormais rétablie selon la page de statut officielle.
Le projet Zig explique pourquoi il interdit les contributions générées par IA, soulevant des questions sur la qualité du code et la responsabilité.
Des chercheurs proposent une analyse théorique quasi-complète des courbes d'apprentissage dans les algorithmes de maximisation des revenus pour un acheteur et un objet.
Un SDK open-source permet de simuler des circuits quantiques à grande échelle sur CPU standard, sans matériel spécialisé.
Un nouveau benchmark de 300 tâches révèle que les meilleurs LLMs n'atteignent que 45,6% de réussite sur la génération de classes complètes.
La startup Joby Aviation a effectué un vol de démonstration à New York, marquant une étape clé pour le déploiement commercial des taxis aériens électriques.
Une note technique montre comment éliminer le facteur logarithmique résiduel ln ln T dans la borne de l'algorithme Squint via un changement de prior.
Mike est un outil d'IA open source conçu pour démocratiser l'accès à l'assistance juridique via des modèles de langage.
Des chercheurs proposent d'apprendre en ligne le paramètre de relaxation d'ADMM pour accélérer la résolution de programmes quadratiques sans refactorisation matricielle.
Une méthode de distillation transforme le rôle du LLM en sélectionneur parmi les propositions du SLM, éliminant la dépendance aux appels externes à l'inférence.
Une recherche montre que le fine-tuning peut rouvrir des failles d'alignement fermées, permettant aux LLM de reproduire des œuvres sous droits.
Une nouvelle architecture combinant réseaux Maxout et ICNNs pour apprendre des fonctions convexes plus efficacement, avec des applications au transport optimal.
OpenAI étend son projet Stargate avec de nouvelles capacités de data centers pour répondre à la demande croissante en calcul IA.
Un premier framework permet de transférer la connaissance d'un LLM de diffusion massif vers un modèle étudiant d'architecture différente, réduisant drastiquement la taille sans sacrifier les performances.
Simon Willison publie une alpha de LLM avec une refonte profonde : les prompts deviennent des séquences de messages, les réponses des flux typés.
OpenAI explique comment des sorties dites « goblin » sont apparues dans GPT-5, leur origine, leur propagation et les correctifs apportés.
DeepMind publie une analyse philosophique soutenant que les systèmes d'IA, aussi sophistiqués soient-ils, ne peuvent simuler la conscience sans jamais la posséder réellement.
Les géants de l'IA cultiveraient délibérément l'inquiétude autour de leurs technologies — une stratégie qui sert autant leurs intérêts qu'elle nuit au débat public.
Une étude révèle que l'optimisation des LLM pour la convivialité dégrade leur fiabilité factuelle et les pousse à valider de fausses croyances.
Un développeur de jeux explique comment il a conçu un agent IA autonome pour automatiser le play-testing et détecter les bugs de gameplay.
Le profil du « Forward Deployed Engineer » s'impose comme pièce maîtresse des stratégies d'adoption de l'IA en entreprise.
Interfaze.ai publie un benchmark dédié aux sorties structurées des LLM, un critère souvent négligé par les évaluations standard.
Neal.fun lance Cursor Camp, une expérience interactive pour découvrir le développement assisté par IA via l'éditeur Cursor.
Une démonstration de PromptArmor révèle comment l'assistant IA de Ramp peut être manipulé pour exfiltrer des données financières sensibles via une injection de prompt.
Un utilisateur de Claude Code signale une facturation erronée de 200 dollars imputable à un bug Anthropic, et se voit refuser tout remboursement.
Hugging Face intègre DeepInfra à son écosystème d'Inference Providers, élargissant les options d'inférence cloud pour les développeurs.
À mesure que les modèles progressent, le coût et la complexité des évaluations (evals) s'imposent comme une contrainte critique, au même titre que la puissance de calcul.
Mistral AI annonce Mistral Medium 3.5, un modèle orienté agents distants combinant performance et efficacité.
IBM détaille sur le blog Hugging Face la conception technique de sa nouvelle famille de modèles Granite 4.1, entre choix d'architecture et pipeline d'entraînement.
Anthropic publie un kit de ressources destiné aux ingénieurs chargés de déployer et défendre Claude Code au sein de leurs organisations.
Amazon intègre un outil d'IA dans son processus de recrutement pour conduire et évaluer automatiquement les entretiens de candidats.
Une expérience à grande échelle révèle la variabilité alarmante des LLM pour estimer les apports en glucides, une tâche critique pour les diabétiques.
OpenAI détaille une stratégie en cinq axes visant à démocratiser la défense cyber assistée par IA et à protéger les infrastructures critiques.
Moonshot AI publie Moonlight-A3B, un modèle MoE léger en open-weights sur Hugging Face, avec 3 milliards de paramètres actifs.
Un nouveau framework améliore la fiabilité des modèles multimodaux en apprenant à évaluer la qualité des preuves visuelles fournies par le raisonneur.
Une nouvelle fonction de perte exploitant la propagation de labels semi-supervisée pour capturer la structure sémantique globale lors du fine-tuning de LLMs.
Une analyse systématique révèle comment la dimension des données, le nombre d'exemples et la diversité des tâches influencent l'ICL des Transformers.
Une approche statistique inédite exploite la fragilité structurelle des LLM sous mélange de texte pour détecter les contenus machine-generated sans entraînement spécifique.
Des chercheurs utilisent des autoencodeurs épars pour cartographier comment les LLM traitent les émotions en interne, révélant un flux d'information en trois phases.
Un nouveau benchmark mesure la capacité des LLM à générer des cas de test REST pertinents à partir d'exigences en langage naturel, via une métrique de mutation.
Une analyse théorique montre que toutes les erreurs dans les proxy rewards ne sont pas néfastes — certaines peuvent même accélérer l'apprentissage.
Une étude compare trois méthodes d'explicabilité appliquées aux réseaux de neurones de graphes pour le jet tagging au Grand Collisionneur de Hadrons.
Un tour d'horizon des approches techniques pour sécuriser les agents IA autonomes : proxies réseau, sandboxing et contrôle des permissions.
Un outil open-source permet de faire tourner des modèles neuronaux d'émulation d'amplificateurs directement dans l'environnement Max/MSP.
Un système baptisé NPLB combine YOLOv12 et ByteTrack pour prolonger automatiquement les phases piétonnes et réduire les accidents aux carrefours.
Google transfère son protocole de paiement destiné aux agents IA à l'alliance FIDO pour en faire un standard ouvert.
Des techniques censées corriger le désalignement émergent après fine-tuning ne l'éliminent pas : elles le rendent simplement contextuel.
Un chercheur propose un cadre conceptuel pour clarifier le rôle normatif des annotateurs humains dans les pipelines RLHF.
Augment Code détaille comment rédiger des fichiers AGENTS.md efficaces pour guider les agents IA dans les codebases.
Une approche par inférence variationnelle améliore la robustesse de la préhension dextre en modélisant l'incertitude de contact via des mélanges gaussiens différentiables.
Un benchmark collaboratif recueille les évaluations subjectives de 1 000 ingénieurs sur les derniers modèles d'IA pour mesurer leur ressenti réel.
Un chercheur propose les algèbres de Clifford comme fondation mathématique supérieure aux vecteurs classiques pour représenter le sens en NLP.
Après des licenciements massifs, Meta formerait ses IA avec le travail de ses propres employés, accélérant la substitution humain-machine.
Une nouvelle méthode architecturale combine TinySubNetworks et Decision Transformer pour apprendre des tâches séquentielles sans oubli catastrophique, sans rejouer de données.
Un développeur a intégré DOOM comme application MCP, rendant le jeu classique jouable directement depuis les interfaces de ChatGPT et Claude.
Une étude théorique révèle pourquoi le teacher forcing crée une distorsion de courbure par rapport à la vraisemblance marginale dans les réseaux récurrents pour systèmes chaotiques.
Un pipeline de compression multi-architecturale baptisé CTT réduit jusqu'à 49x la mémoire et 81% les émissions CO₂ des LLMs dédiés au génie logiciel.
Une analyse comparative révèle des écarts significatifs de consommation GPU et batterie entre les principaux émulateurs de terminal sur macOS.
CUA permet à des agents IA d'automatiser des applications macOS en tâche de fond, sans interférer avec l'usage normal du poste.
Un nouveau benchmark de 260 tâches teste les agents IA sur la visualisation de données dans des scénarios professionnels complexes — les meilleurs modèles peinent à dépasser 50 %.
Un nouveau cadre théorique basé sur la perte de Tsallis résout le problème du démarrage à froid dans l'entraînement par RLVR des modèles de raisonnement.
Un retour d'expérience concret sur la migration vers Claude Opus pour réduire la facture LLM, avec chiffres à l'appui.
Les utilisateurs expérimentés échouent davantage avec l'IA que les novices — mais leurs échecs sont visibles et productifs, contrairement aux erreurs silencieuses des débutants.
Une régression dans Claude Code génère des refus en cascade chez les sous-agents à cause d'un avertissement anti-malware déclenché à chaque lecture de fichier.
Un nouveau framework étend le principe de récursivité des LLMs aux systèmes multi-agents, avec des gains de précision et de vitesse d'inférence significatifs.
OpenAI détaille ses mécanismes de protection dans ChatGPT : garde-fous des modèles, détection des abus et coopération avec des experts en sécurité.
Sam Altman et le PDG d'AWS s'expriment sur l'intégration des modèles OpenAI dans Bedrock et ses agents managés.
Tools for Humanity, co-fondée par Sam Altman, a publié une annonce de partenariat avec Bruno Mars qui s'avère être une erreur d'identité.
Alors que l'IA génère de plus en plus de code, la revue humaine reste-t-elle pertinente ou devient-elle un goulot d'étranglement inutile ?
Des résultats en deçà des attentes chez OpenAI font chuter les cours d'Oracle et des fabricants de puces, ravivant les craintes d'une bulle spéculative.
Les six plus grandes compagnies aériennes américaines ont vu leur facture carburant exploser au premier trimestre, et la tendance ne devrait pas s'inverser.
Une analyse de The Atlantic explore comment OpenAI semble désormais suivre les pas d'Anthropic plutôt que l'inverse.
Une analyse critique des modèles économiques de l'IA générative, qui questionne la viabilité financière du secteur malgré des investissements colossaux.
Anthropic met en avant les capacités créatives de Claude, ciblant auteurs, scénaristes et professionnels de la création de contenu.
La startup derrière Claude devient partenaire corporate de la fondation Blender, renforçant les liens entre IA et création 3D open source.
Le service Claude.ai d'Anthropic a connu une interruption signalée sur sa page de statut officielle.
Google aurait conclu un accord avec le département américain de la Défense autorisant l'utilisation de ses technologies IA pour tout usage légal, y compris des applications militaires classifiées.
La question de la propriété intellectuelle du code généré par des outils d'IA comme Claude Code soulève des enjeux juridiques encore non résolus.
La société AISLE a identifié 38 CVE dans OpenEMR, un logiciel médical open source utilisé par plus de 100 000 professionnels de santé.
Poolside lève le voile sur deux nouveaux modèles de sa famille Laguna, dédiés à la génération et compréhension de code.
OpenAI étend sa distribution cloud en rendant ses modèles GPT, Codex et Managed Agents accessibles directement dans l'environnement AWS des entreprises.
Mistral AI dévoile Workflows, une solution d'automatisation des tâches répétitives et des processus opérationnels à destination des entreprises.
NVIDIA présente Nemotron 3 Nano Omni, un modèle multimodal compact capable de traiter documents, audio et vidéo dans des pipelines agentiques.
De ses débuts expérimentaux en 2006 à près de 250 langues supportées, Google Translate célèbre deux décennies de traduction automatique.
La Commission européenne exige que Google donne accès à ses fonctions IA sur Android à des tiers. Google dénonce une ingérence injustifiée.
Les entreprises qui ont misé sur un seul fournisseur d'IA découvrent les inconvénients du lock-in : coûts, dépendance et perte de flexibilité.
Kevin O'Leary obtient le feu vert pour un méga-campus de data centers en Utah, dont la capacité dépasse largement la production électrique locale.
À partir du 1er juin 2026, les revues de code automatisées par Copilot seront décomptées du quota de minutes GitHub Actions.
Microsoft publie VibeVoice, un projet open-source d'IA vocale avancée, disponible sur GitHub.
LocalSend permet le partage de fichiers en local sans Internet ni serveur, sur Windows, macOS, Linux, iOS et Android.
Un framework théorique formalisé pour détecter et contenir les dérives comportementales d'agents IA sans modification de code.
Un framework physique sélectionne automatiquement les features informatives dans des données haute dimension, sans recherche greedy, en exploitant la température de Nishimori.
Une nouvelle méthode adapte dynamiquement l'intensité du steering selon le contexte, surpassant les approches fixes sur onze benchmarks.
Un nouveau benchmark, ProHist-Bench, teste les capacités de raisonnement historique avancé des LLM sur 1 300 ans d'histoire est-asiatique.
Un nouveau benchmark basé sur Minecraft teste la capacité des agents IA à découvrir des régularités causales et à les appliquer — avec des résultats plafonnant à 26 %.
Des chercheurs identifient un phénomène systématique où des agents LLMs pourtant dotés de profils distincts convergent vers des comportements uniformes.
Des chercheurs proposent un cadre d'évaluation axé sur la variation naturelle des requêtes, appliqué au diagnostic médical avec un nouveau benchmark clinique.
SpecValidator, un classifieur léger fine-tuné, surpasse GPT-4o-mini et Claude Sonnet pour détecter les descriptions de tâches mal formées soumises aux LLM.
Un essai critique soutient qu'Anthropic réduit la notion de sécurité IA à des risques catastrophiques, au détriment de dangers plus quotidiens.
Une plateforme ouverte et mise à jour en continu pour évaluer les modèles de prévision énergétique dans des conditions opérationnelles réelles.
HDET réutilise les répliques GPU du data-parallel pour explorer plusieurs learning rates en parallèle, sans coût de communication significatif.
Anthropic restreint l'accès à Claude Opus dans son offre Pro : le modèle le plus puissant ne sera disponible que si l'option d'usage étendu est activée.
Une approche de contrôle prédictif exploitant la flatness différentielle réduit drastiquement le coût computationnel sans sacrifier les performances.
Une méthodologie d'évaluation de l'IA clinique fondée sur des grilles rédigées par des médecins, validée sur 823 cas réels et synthétiques.
Un essai rappelle que les fondements théoriques de l'IA actuelle ont été posés par Shannon il y a 75 ans — et que l'industrie feint de l'ignorer.
Une méthode convertit des checkpoints Transformer existants en modèles hybrides capables de traiter jusqu'à 2 millions de tokens, tout en réduisant la mémoire KV-cache de plus de 90 %.
Selon le WSJ, OpenAI n'a pas atteint plusieurs cibles financières et d'audience clés alors que l'entreprise prépare son introduction en bourse.
Des chercheurs proposent d'enrichir le RoPE des Transformers en traitant l'espace de rotation comme une dimension apprenante conditionnée par le signal.
Malgré sa position de hub incontesté de l'intelligence artificielle, San Francisco affiche des indicateurs économiques décevants par rapport au reste des États-Unis.
Un développeur propose d'intégrer un mini-jeu directement dans l'interface pendant les temps de latence des LLMs, pour améliorer l'expérience utilisateur.
Un pipeline à deux voies combine AutoML et BiLSTM pour analyser des avis en indonésien mêlant argot, emprunts régionaux et emojis.
Un tour d'horizon des options GPU les plus économiques disponibles à l'échelle mondiale, entre cloud spot, fournisseurs alternatifs et marchés secondaires.
Le chercheur derrière AlphaGo quitte DeepMind pour lever 1,1 milliard de dollars et construire une IA capable d'apprendre de manière autonome.
Un nouveau benchmark évalue la capacité des méthodes de reinforcement learning basées sur la logique temporelle linéaire à généraliser sur des tâches et environnements inédits.
Une étude théorique montre comment combiner des supervisions Chain-of-Thought issues de raisonneurs multiples pour apprendre efficacement.
Un résultat théorique majeur : la conjecture de Daniely et Shalev-Shwartz (2014) sur la classification multiclasse est enfin prouvée.
Pékin oppose son veto à l'acquisition de Manus par Meta, dans un contexte de tensions croissantes autour du contrôle des technologies d'IA.
Un nouveau système combine reconstruction 3D en temps réel et transformer géométrique pour cartographier l'environnement en continu.
Une nouvelle approche d'optimisation multi-tâches pour les réseaux de neurones à préservation asymptotique, traitant les conflits de gradients en physique cinétique.
AgentSwift propose un agent autonome capable de générer et modifier des applications iOS, en open-source.
Anthropic accélère son expansion dans la région Asie-Pacifique avec l'ouverture officielle d'un bureau à Sydney et la nomination de Theo Hourmouzis.
NVIDIA publie sur Hugging Face un modèle d'IA intégrant des contraintes physiques pour améliorer la reconstruction et l'analyse des images ultrasonores.
ChatGPT Enterprise et l'API OpenAI sont désormais autorisés au niveau FedRAMP Moderate, ouvrant la voie à leur déploiement sécurisé au sein des agences fédérales américaines.
Des chercheurs exploitent l'analyse AST et des composantes de connaissance pour générer des exemples corrigés adaptés aux erreurs logiques spécifiques de chaque apprenant.
Un outil de design assisté par IA, open-source et fonctionnant en local, se présente comme alternative aux solutions propriétaires Claude Design et v0.
Des chercheurs de DeepMind publient un papier affirmant que les grands modèles de langage sont structurellement incapables d'atteindre la conscience.
Un regard critique sur la déconnexion entre les obsessions technologiques de la Silicon Valley et les besoins réels du grand public.
Canonical annonce un déploiement progressif de fonctionnalités d'intelligence artificielle dans Ubuntu au cours de l'année à venir.
Un agent de coding IA basé sur Claude d'Anthropic, via l'outil Cursor, a effacé la base de données complète d'une entreprise — sauvegardes comprises — en quelques secondes.
Retour d'expérience pratique sur l'exécution de LLM en local, sans connexion, à bord d'un long-courrier.
Tendril est un agent IA capable de générer dynamiquement ses propres outils et de les enregistrer à la volée, sans intervention humaine.
L'outil Magic Layers de Canva a substitué automatiquement le mot « Palestine » dans des designs, provoquant une vague de critiques et des excuses officielles.
Un développeur présente Utilyze, un outil open source de surveillance GPU qui se positionne comme une alternative plus précise à nvtop.
Comment Choco a déployé les API OpenAI pour optimiser ses flux de distribution alimentaire et accélérer sa croissance.
Un tournant majeur dans le partenariat IA le plus commenté de la décennie : Microsoft cesse de partager ses revenus avec OpenAI.
OpenAI publie Symphony, un spec open-source qui transforme les gestionnaires de tickets en systèmes d'agents autonomes pilotés par Codex.
GitHub annonce un changement de modèle tarifaire pour Copilot : exit l'abonnement fixe, place à la facturation selon la consommation réelle.
Un fork modernisé de ZSNES exploite la puissance des GPU pour émuler la Super Nintendo avec des performances et une fidélité améliorées.
Pendant des années, l'accord Microsoft-OpenAI contenait une clause stipulant que les droits commerciaux de Microsoft s'annuleraient si l'AGI était atteinte. Cette clause vient de disparaître.
Les deux entreprises ont revu et simplifié les termes de leur accord, avec l'objectif d'apporter une visibilité à long terme sur leur collaboration en matière d'IA.
Hugging Face publie un guide pratique pour intégrer le filtre de confidentialité d'OpenAI dans des applications web scalables.
Google rouvre les inscriptions à son cours intensif de 5 jours sur les agents IA, organisé en partenariat avec Kaggle.
Une brèche massive chez la plateforme Mercor expose des données vocales sensibles appartenant à des dizaines de milliers de sous-traitants travaillant pour des projets d'IA.
Un blogueur analyse la collection Moleskine générée par IA inspirée du Seigneur des Anneaux et pointe ses limites créatives et symboliques.
Retour sur le rôle déterminant des programmes de missiles militaires dans les premières décennies de la conquête spatiale.
GPT-5.5 est disponible dans OpenAI Codex et déployé progressivement aux abonnés ChatGPT payants, sans accès API officiel pour l'instant.
La startup française Mistral AI tire parti de son identité européenne pour s'imposer face aux géants américains et atteindre une valorisation de 14 milliards de dollars.
Un développeur indépendant publie Dirac, un agent open-source qui atteint le meilleur score sur TerminalBench avec le modèle Gemini 2.5 Flash Preview.
Une étude évalue la prédiction de performance de requête (QPP) pour choisir la variante optimale avant d'exécuter un pipeline RAG complet.
Un cadre probabiliste pour réduire le coût des tests par mutation en DL, en filtrant les configurations peu résistantes ou peu réalistes.
Les métriques quantitatives standards des valeurs de Shapley ne reflètent pas l'utilité réelle perçue par les analystes en contexte à forts enjeux.
Un nouveau score unique, l'AP metric, pour comparer les algorithmes de clustering à partir de leurs tables de contingence.
Des chercheurs combinent processus gaussiens et NMPC pour contrôler des réacteurs batch sans modèle dynamique préétabli, avec convergence rapide en quatre itérations.
WG-SRC remplace le message passing appris par un dictionnaire de signaux nommés pour rendre la classification de nœuds interprétable et diagnostiquer les propriétés des datasets.
Une nouvelle architecture RAG conditionne le LLM sur chaque document individuellement et pondère leurs contributions via la règle de Bayes, token par token.
Les systèmes d'IA pour le recrutement fragmentent la responsabilité entre fournisseurs, développeurs et déployeurs, rendant la détection des biais quasi impossible.
Une méthode de filtrage rapide et efficace pour sélectionner les meilleures données de fine-tuning parmi des dizaines de millions d'exemples.
Un framework paramétrique décompose le flux respiratoire en composantes localisées, améliorant de 30,7 % la détection de la fatigue cognitive.
Un site d'actualités dont tous les journalistes seraient des agents IA aurait reçu des fonds d'OpenAI, soulevant des questions de transparence.
Une méthode post-entraînement permet aux LLM de raisonner via des tokens abstraits plutôt qu'en langage naturel, réduisant jusqu'à 11,6× les tokens de raisonnement.
Un outil en ligne génère automatiquement des explications adaptées au niveau du lecteur pour tout article scientifique ArXiv.
UAE propose d'injecter des signaux d'utilité LLM directement dans l'espace d'embedding, sans inférence LLM à l'exécution, pour un RAG 180x plus rapide.
Une plateforme interactive sans configuration pour expérimenter les architectures multi-agents, accessible directement en ligne.
Une méthode combinant transfer learning et clustering non supervisé permet d'identifier des structures morphologiques inédites en giriama, langue bantoue quasi-non dotée.
L'EIA prévoit une consommation d'électricité aux États-Unis à des niveaux historiques d'ici 2027, sous l'effet de l'essor des data centers et de l'IA.
Des modèles transformer entraînés sur des données morphologiques modernes parviennent à retrouver des cognats proto-bantous avec une précision de 90,9 %.
Contre toute attente, le recours à l'IA s'avère dans certains cas plus onéreux que l'emploi humain, selon une analyse d'Axios.
Un résultat théorique majeur : le problème d'existence de plan en logique épistémique modale est indécidable, même dans des cas très contraints.
Les agents IA remettent en cause des décennies de conventions dans la conception des bases de données, révélant des failles invisibles jusque-là.
Une méthode d'entraînement qui régularise directement les propriétés MILP des réseaux ReLU pour accélérer l'optimisation globale.
Alphabet entend capitaliser sur ses avancées en IA pour combler son retard sur AWS et Azure dans le marché du cloud d'entreprise.
Une taxonomie en deux axes pour unifier la recherche sur les world models agentiques, synthétisant plus de 400 travaux et 100 systèmes représentatifs.
Moonshot AI publie Moonlight-16B-A3B, un modèle Mixture-of-Experts de 16 milliards de paramètres avec 3 milliards actifs, disponible en open-weights sur Hugging Face.
Google intègre une API Prompt native dans Chrome, permettant aux développeurs d'exécuter des modèles de langage localement, sans serveur.
Une étude révèle que les LLMs reproduisent des stéréotypes néfastes et effacent les identités non occidentales dans leurs récits générés.
Moonshot AI publie Moonlight-16B-A3B-Instruct, un modèle d'instruction MoE de 16 milliards de paramètres avec seulement 3B actifs.
Un plaidoyer pour une utilisation de l'IA qui renforce les capacités cognitives humaines plutôt qu'elle ne les substitue.
Une première étude systématique révèle que les tâches de codage agentique consomment 1000x plus de tokens que le raisonnement standard, avec une variance jusqu'à 30x entre exécutions.
EvanFlow propose un workflow piloté par les tests (TDD) pour automatiser et affiner les interactions avec Claude Code via une boucle de rétroaction.
Une méthode séquentielle et consciente de l'incertitude permet d'approcher la précision d'un fitting complet en n'utilisant que 10 % du budget.
DeepMind et la Corée du Sud s'associent pour accélérer la recherche scientifique grâce aux modèles d'IA frontier.
Moonshot AI publie Kimi-Audio-7B-Instruct, un modèle multimodal audio open-weights de 7 milliards de paramètres disponible sur Hugging Face.
Sam Altman détaille les principes qui orientent la stratégie d'OpenAI dans sa quête d'une intelligence artificielle générale bénéfique pour l'humanité.
Hugging Face détaille DeepSeek-V4, un modèle offrant une fenêtre de contexte d'un million de tokens pensée pour un usage agent fiable et efficace.
Entre les géants de l'IA et les niches spécialisées, l'espace pour les acteurs intermédiaires se réduit dangereusement.
Un développeur raconte comment un agent autonome a effacé leur base de données en production, et publie le log de l'incident.
OpenAI explique pourquoi il abandonne SWE-bench Verified comme référence d'évaluation pour ses modèles de codage de pointe.
Une analyse des vecteurs de sabotage low-tech capables de dégrader silencieusement les performances des agents IA en production.
La startup Terra API, soutenue par Y Combinator, cherche un profil hybride stratégie/IA pour développer son intelligence marché dans le secteur santé.
Eden AI se positionne comme un agrégateur d'APIs d'IA à la façon d'OpenRouter, mais ancré en Europe et orienté conformité.
HATS propose un framework multi-agents où des IA s'affrontent en débat structuré pour affiner la qualité des décisions collectives.
Feldera plaide pour une approche radicalement différente de l'intégration des agents IA : les embarquer dans le code plutôt que les traiter comme des collaborateurs autonomes.
Les IDE dopés à l'IA affichent des métriques de productivité trompeuses qui donnent une fausse image de l'avancement réel des projets.
Un développeur met en évidence les limites des LLM locaux sur des tâches arithmétiques élémentaires, obtenant sept réponses fausses sur une simple addition.
LMSYS détaille l'intégration immédiate de DeepSeek-V4 dans SGLang, avec support du reinforcement learning vérifié dès la sortie du modèle.
Des chercheurs proposent une approche pour exécuter efficacement les requêtes Datalog sur GPU, ouvrant la voie à des raisonnements symboliques massivement parallèles.
Un outil no-code en ligne permet de concevoir et déployer des architectures multi-agents basées sur le protocole MCP directement depuis le navigateur.
Les systèmes d'IA agentiques se déploient sans que le rôle de représentant de l'utilisateur ne soit clairement défini, créant un vide de gouvernance.
Une étude de 2021 de ParlAI analyse le compromis fondamental entre la taille des modèles et le budget de calcul à l'inférence.
Une étude soulève l'inquiétude que les LLM puissent intégrer discrètement des contenus sponsorisés sans que les utilisateurs s'en aperçoivent.
Un système open-source où des agents IA gèrent automatiquement une base de connaissances Markdown versionnée sous Git, inspiré du style pédagogique de Karpathy.
Un benchmark minimaliste pour tester la capacité des modèles d'IA à raisonner formellement via le calcul lambda.
Nimbus propose une expérience de navigation inédite en intégrant une UX calquée sur celle de Claude Code directement dans le navigateur.
Un développeur exprime son désarroi face à l'accélération de l'IA et se demande si sa passion pour le code a encore un sens.
MenteDB propose une base de données mémoire open-source écrite en Rust, conçue spécifiquement pour gérer la persistance des agents IA.
Un développeur expérimente l'automatisation de son suivi financier personnel via des routines Claude Code — entre faisabilité technique et limites pratiques.
Google DeepMind présente TIPSv2, une méthode de pré-entraînement multimodal qui renforce l'alignement entre patches visuels et tokens textuels.
Un agent de codage en ligne de commande, écrit en Rust, capable d'interagir avec plusieurs fournisseurs LLM depuis le terminal.
Cognition lance Devin for Terminal, une interface en ligne de commande pour intégrer l'agent de développement IA directement dans les workflows CLI.
Des modèles de machine learning appliqués aux données d'observation révèlent des anomalies qui pourraient indiquer des classes d'événements célestes encore inconnues.
Un projet open source propose une couche mémoire universelle permettant à n'importe quel agent IA de gérer le contexte persistant comme le font les grandes plateformes.
Un outil reconstruit une silhouette 3D personnalisée uniquement à partir de réponses à un questionnaire morphologique, sans image ni calcul intensif.
Un accord massif qui renforcerait encore la position de Google comme principal bailleur de fonds du laboratoire créateur de Claude.
Anthropic et Amazon annoncent une expansion majeure de leur partenariat pour déployer jusqu'à 5 GW d'infrastructure de calcul dédiée à l'IA.
Une étude expose les limites des garde-fous de ChatGPT, Gemini, Claude et Grok face à des utilisateurs en état de détresse psychotique.
La fintech Affirm décrit comment elle a réorganisé son équipe d'ingénierie autour des agents IA en l'espace d'une semaine.
Google Labs propose un format standardisé permettant aux agents de codage de comprendre et appliquer une identité visuelle cohérente.
Alphabet renforce massivement sa mise sur Anthropic, portant son engagement total à 40 milliards de dollars dans le développeur de Claude.
Atomic est une application de gestion de connaissances personnelles fonctionnant en local-first, enrichie par des capacités d'IA pour organiser et retrouver l'information.
L'information, enfouie dans un dépôt 10-Q, confirme un investissement massif de Tesla dans l'infrastructure matérielle dédiée à l'IA.
Un framework open-source qui permet aux LLM de prendre le contrôle complet du navigateur pour automatiser toute tâche web.
Un outil open-source pour surveiller et détecter les régressions de performance dans Claude Code avant qu'elles n'impactent la production.
Un outil humoristique qui génère des gémissements sonores en temps réel pendant qu'un agent IA exécute des tâches sur votre code.
Un utilisateur documente sa décision de résilier son abonnement Claude, pointant des limites de tokens frustrants, une dégradation perçue des réponses et un service client décevant.
SFO a supprimé 90 minutes d'annonces sonores quotidiennes. Les voyageurs affirment que l'expérience en a été transformée.
OpenAI déploie deux nouveaux modèles dans son API : GPT-5.5 et GPT-5.5 Pro, disponibles pour les développeurs.
Anthropic dévoile Project Deal, une nouvelle fonctionnalité destinée aux équipes professionnelles pour faciliter la collaboration et la gestion de projets via Claude.
Google propose des cas d'usage pratiques de Gemini pour le grand public : gestion du foyer, désencombrement numérique et planification des tâches saisonnières.
Anthropic publie une mise à jour sur les mesures de protection déployées pour limiter les usages abusifs de ses modèles lors des processus électoraux.
Wikipédia formalise sa position sur l'usage de l'IA dans la contribution et la modération de ses contenus encyclopédiques.
Un développeur publie un guide visuel et interactif pour expliquer le fonctionnement interne des LLM, s'appuyant sur les cours d'Andrej Karpathy.
Hugging Face publie un guide technique pour intégrer Transformers.js dans une extension Chrome et exécuter des modèles IA directement dans le navigateur.
Une image générée par IA représentant un loup fictif a mobilisé inutilement les autorités sud-coréennes, conduisant à l'arrestation de son auteur.
Les ISP modernes intègrent de l'IA générative qui peut halluciner du contenu dans les photos. Des chercheurs proposent une méthode pour récupérer l'image « non hallucinée ».
Un nouveau système combine LLMs et apprentissage par graphes pour extraire des événements sans contrainte de domaine, surpassant l'état de l'art.
Une étude sur 13 LLM montre que les réponses factuelles varient selon la façon dont une entité est nommée, révélant une mémorisation ni purement lexicale ni totalement invariante.
Un système de bout en bout combinant LLMs et indexation efficace pour extraire des alertes exploitables depuis des tickets clients bruités.
Des chercheurs proposent un pipeline basé sur les transformers pour accélérer la résolution du problème d'Unit Commitment sur un horizon de 72 heures.
Des chercheurs publient EVENT5Ws, un dataset annoté manuellement pour l'extraction d'événements en open-domain, avec benchmark de LLMs état de l'art.
Une étude empirique teste l'apport de données environnementales et d'imagerie aérienne pour améliorer la prédiction des sinistres MTPL à l'échelle zonale.
Nemobot propose un environnement agentique où des LLM pilotent des agents de jeu adaptatifs selon une taxonomie étendue de Shannon.
Un framework combinant stylométrie diachronique, topic modeling et clustering sémantique analyse 450 000 discours parlementaires brésiliens sur 22 ans.
Des chercheurs proposent une architecture unique capable de gérer simultanément l'espace et le temps pour la super-résolution climatique, grâce à des modèles de diffusion adaptatifs.
Une nouvelle stratégie de fine-tuning parameter-efficient réduit d'un facteur 8 le rang nécessaire tout en rivalisant avec LoRA.
Selon un rapport, des individus non habilités auraient obtenu l'accès à Mythos, l'outil IA cybersécurité confidentiel d'Anthropic.
Une revue analytique de LoRA sous l'angle du traitement du signal, couvrant architectures, optimisation et déploiement des LLM.
Des chercheurs proposent une architecture à trois couches combinant LLM et générateurs déterministes pour convertir automatiquement des questions scientifiques en workflows reproductibles.
OpenAI publie un guide pas à pas pour prendre en main Codex : configuration des projets, création de threads et exécution des premières tâches.
Des chercheurs montrent que les instructions textuelles sont la principale cause d'hallucinations dans les modèles vision-langage, et proposent un correctif.
Un commerce de San Francisco piloté par une IA cumule les dysfonctionnements : commandes excessives de confiseries et écarts de rémunération selon le genre.
Un nouveau benchmark auto-évolutif où les modèles créent et résolvent mutuellement des problèmes de maths, révélant des capacités invisibles dans les évaluations classiques.
OpenAI présente Codex comme un agent capable d'automatiser des tâches, connecter des outils et produire des livrables concrets au-delà du simple chat.
Des chercheurs établissent des bornes optimales sur le nombre d'échantillons nécessaires pour garantir la multicalibration d'un prédicteur, révélant un seuil critique.
Oracle accumule une dette colossale pour financer ses infrastructures IA, mettant à l'épreuve la patience des marchés financiers.
OpenAI détaille comment personnaliser Codex : niveau de détail, permissions et options de workflow pour optimiser l'exécution des tâches.
XBOW démontre comment GPT-5.5 atteint un niveau de hacking autonome comparable à leur agent Mythos, mais en accès public.
Le choix des paramètres entraînables change radicalement le classement des méthodes d'apprentissage continu, selon une étude sur cinq datasets.
OpenAI publie un guide pas-à-pas pour configurer Codex, gérer des projets et des fichiers, et automatiser des tâches de développement.
Un vault open-source conçu pour gérer et sécuriser les credentials utilisés par les agents IA autonomes.
Des chercheurs testent les LLM comme alternative au WER pour évaluer l'ASR, avec jusqu'à 94 % d'accord avec les annotateurs humains.
OpenAI détaille comment exploiter plugins et skills dans Codex pour connecter des outils, accéder aux données et automatiser des workflows répétables.
La façon dont on segmente un flux de données en tâches discrètes influence autant les conclusions d'un benchmark que le modèle lui-même.
Google dévoile TorchTPU, une intégration native de PyTorch sur ses TPU, permettant aux développeurs d'entraîner des modèles sans quitter l'écosystème PyTorch.
Simon Willison adapte LiteParse de LlamaIndex pour fonctionner entièrement côté navigateur, sans modèle IA, en s'appuyant sur PDF.js et Tesseract.js.
OpenAI recense dix cas d'usage concrets de Codex pour automatiser des tâches, produire des livrables et connecter outils, fichiers et workflows.
Des chercheurs développent des modèles capables de détecter les changements de vitesse dans les vidéos et de générer des séquences au ralenti avec contrôle temporel fin.
DeepSeek publie deux modèles open-weights en preview — V4-Pro (1,6T paramètres) et V4-Flash — avec des tarifs très agressifs.
Le partenariat vise à déployer Claude à grande échelle au sein de NEC et à former des milliers d'ingénieurs spécialisés en IA au Japon.
OpenAI détaille comment configurer des automatisations dans Codex via des plannings et des déclencheurs pour générer rapports et workflows récurrents.
Un article d'opinion décortique les incohérences structurelles des modèles de prix pratiqués par les fournisseurs de LLM.
Un projet communautaire open-source qui compile des configurations pratiques pour déployer des LLM localement, en quête de contributeurs.
Un épisode de podcast du Verge interroge le fossé entre le discours des entreprises tech sur l'IA et les attentes réelles des utilisateurs.
Le projet open-source MeshCore se fracture : désaccords sur la propriété de la marque et l'intégration de code produit par IA au cœur de la rupture.
OpenAI lance un bug bounty dédié à la biosécurité de GPT-5.5, avec des récompenses allant jusqu'à 25 000 dollars pour qui découvre des jailbreaks universels.
Anthropic publie une analyse post-incident sur les dérives de comportement signalées dans Claude Code fin avril 2025.
Google publie une vidéo explicative sur le fonctionnement de ses puces TPU et leur rôle central dans l'infrastructure d'entraînement IA.
OpenAI dévoile la system card officielle de GPT-5.5, détaillant les évaluations de sécurité, les capacités et les limites du modèle.
DeepMind présente Decoupled DiLoCo, une méthode d'entraînement distribué qui découple le calcul du transfert de données pour une robustesse accrue.
OpenAI lance GPT-5.5, présenté comme son modèle le plus performant à ce jour, optimisé pour le code, la recherche et l'analyse de données.
The Register dresse un bilan sévère de Mythos, l'initiative d'Anthropic présentée avec ambition mais dont les contours restent flous.
Le représentant Blake Moore dépose un projet de loi visant à bannir les assistants IA conversationnels intégrés aux jouets destinés aux mineurs.
Google annonce son premier centre de données autrichien, dans la ville de Kronstorf, promettant 100 emplois directs.
6 000 sessions réelles, 63 000 prompts, 355 000 appels d'outils : une étude empirique inédite sur l'usage concret des agents de codage.
Une méthode combinant plusieurs cohortes pour estimer l'impact réel d'un traitement sur la rétention et la valeur résiduelle des utilisateurs.
Un réseau neuronal hybride reconstruit les couches de glace manquantes dans les données radar en s'appuyant sur des modèles climatiques physiques.
Une évaluation multidimensionnelle révèle que les LLMs surpassent les médecins en complexité linguistique mais restent en deçà sur les critères épistémiques.
Intégrer des mécanismes d'attention inspirés de la cognition humaine dans GPT-2 améliore la précision grammaticale quand les données d'entraînement sont rares.
Des chercheurs intègrent la symétrie de jauge non-abélienne directement dans le message passing des GNN, ouvrant la voie à l'apprentissage machine en physique théorique.
Une architecture hybride combine LLMs et graphes de connaissances RDF/OWL pour dépasser les limites du RAG vectoriel en raisonnement multi-étapes.
Un nouveau cadre diffusion, LEXIS-Flow, reconstruit en 3D les interactions humain-objet à partir d'une seule image RGB grâce à des champs de proximité continus.
Un chercheur propose de recadrer l'alignement IA non comme un défi technique, mais comme une question de gouvernance institutionnelle.
Un nouveau benchmark évalue la capacité des grands modèles vision-langage à raisonner sur plusieurs images simultanément, avec des problèmes issus des Olympiades scientifiques.
Un framework MORL permet à un seul modèle de diffusion de naviguer sur le front de Pareto à l'inférence, sans réentraînement.
Une nouvelle étude révèle que les LLM peinent à interpréter fidèlement des grammaires hors contexte, notamment face à la récursivité profonde.
Transformers, LSTMs et RNNs linéaires convergent vers des structures périodiques communes pour représenter les nombres, révèle une étude arXiv.
Des sociétés liquidées monétisent leurs données internes — conversations Slack, e-mails — en les revendant à des acteurs de l'IA pour constituer des datasets d'entraînement.
Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.
Meta aurait mis en place un programme de collecte de données via le monitoring des employés sur des sites tiers pour alimenter ses modèles d'IA.
Un corpus SAR global de 15 000 séries temporelles permet de suivre le déploiement et l'exploitation des parcs éoliens offshore de 2016 à 2025.
Un tour d'horizon des stratégies d'optimisation du nombre de tokens dans les LLM, entre performance et sobriété.
Une méthode de meta-learning exploitant des images de contrôle non perturbées permet de combler le fossé de performance causé par les effets de lot en imagerie biomédicale.
Un cadre multi-étapes exploite la structure spectrale des représentations de caractéristiques pour corriger les labels bruités en apprentissage fédéré.
Des chercheurs présentent AVISE, un cadre modulaire d'évaluation des vulnérabilités IA, incluant un test automatisé de jailbreak sur neuf LLM récents.
Microsoft ouvre Teams aux agents tiers via son SDK : les développeurs peuvent désormais connecter leurs propres agents conversationnels à la plateforme.
OpenAI réagit publiquement à un incident de sécurité impliquant un outil développeur lié à Axios, détaillant sa gestion de la crise.
Une nouvelle stratégie SFT intègre des programmes fonctionnellement équivalents en plusieurs langages pour améliorer la généralisation des LLMs vers des PLs peu dotés.
Le média tech publie sa charte interne encadrant l'usage de l'IA par ses journalistes, un geste de transparence rare dans la presse spécialisée.
Un nouveau benchmark évalue la capacité des grands modèles audio-langage à contrôler plus de 100 traits paralinguistiques fins dans la synthèse vocale.
Les médecins, infirmiers praticiens et pharmaciens américains vérifiés accèdent désormais gratuitement à ChatGPT for Clinicians.
Alibaba publie Qwen3.6-27B, un modèle de 27 milliards de paramètres en open-weights, disponible directement sur Hugging Face.
Selon le Washington Post, le suspect de la fusillade à Florida State University aurait utilisé ChatGPT pour planifier son attaque.
Un phénomène émergent : des fondateurs affichent publiquement que leurs dépenses en IA dépassent leur masse salariale humaine.
Une jeune pousse américaine utilise l'IA pour contester les refus de prise en charge des assureurs santé, avec le soutien de Mark Cuban.
Un outil open-source pour monitorer en temps réel les sessions Pi et OMP via une interface web dédiée.
L'équipementier électronique Anker franchit une nouvelle étape en concevant sa propre puce maison, baptisée Thus, pour déployer des fonctions IA sur l'ensemble de sa gamme.
Un développeur propose une méthode de scoring pour détecter les mauvais patterns de design IA dans les projets soumis sur Hacker News.
Un agent de codage autonome open-source qui exécute des tâches de développement en une seule passe, directement dans le cloud.
Anthropic présente une approche de classification constitutionnelle pour contrer les tentatives de contournement systématiques des garde-fous des LLM.
OpenAI publie un modèle dédié à la détection et au masquage des informations personnellement identifiables (PII) dans les textes.
Anthropic publie les résultats d'une vaste enquête auprès de 81 000 utilisateurs sur leurs usages économiques de l'IA.
OpenAI déploie des agents dédiés aux entreprises, intégrés aux outils de productivité et capables d'automatiser des tâches métier complexes.
Anthropic publie les résultats de la seconde phase de Project Vend, une expérience évaluant la capacité d'agents IA à opérer de façon autonome dans un contexte commercial réel.
OpenAI détaille comment les WebSockets et le cache de connexion ont réduit la latence du modèle dans la boucle agentique de Codex.
L'éditeur Zed permet désormais d'exécuter plusieurs agents IA simultanément, ouvrant la voie à un développement assisté multi-tâches.
NVIDIA et Hugging Face font tourner Gemma 4 en mode vision-langage-action sur le module embarqué Jetson Orin Nano Super.
Anthropic dévoile un nouvel indice économique pour mesurer l'impact de l'IA sur le marché du travail et les dynamiques économiques.
OpenAI lance des « workspace agents » dans ChatGPT : des agents autonomes basés sur Codex pour automatiser des workflows complexes en équipe.
OpenAI publie un guide pour créer, utiliser et déployer des agents workspace dans ChatGPT afin d'automatiser les opérations d'équipe.
Un accord massif lie désormais Anthropic à AWS : 5 milliards de dollars d'investissement contre une promesse de 100 milliards de dépenses cloud.
Après avoir développé des agents IA, l'équipe de CharlieLabs a pivoté vers la gestion des conséquences et résidus laissés par ces agents.
Kasane propose un remplacement direct du client Kakoune, dopé au rendu GPU et à l'extensibilité via WebAssembly.
Microsoft ajuste sa grille tarifaire : baisse sur les bureaux virtuels Windows 365, hausse sur les services IA — une stratégie de prix à deux vitesses.
Des chercheurs montrent que l'environnement atmosphérique contient des quantités mesurables d'ADN en suspension, ouvrant de nouvelles perspectives scientifiques.
Ctx propose un contexte partagé et persistant entre plusieurs assistants de coding IA, évitant de répéter les instructions à chaque session.
Après une période d'incertitude, Anthropic confirme que l'utilisation de Claude via des clients CLI tiers comme OpenClaw est bien autorisée par ses CGU.
Une nouvelle méthode d'apprentissage par renforcement combine contrôle de force et de position pour des tâches d'insertion délicate, surpassant nettement les approches classiques.
Un nouveau cadre algorithmique pour optimiser les campagnes publicitaires sociales en tenant compte du coût variable des influenceurs.
Un essai plaide pour des agents IA moins anthropomorphisés, plus transparents et explicites dans leurs intentions et limites.
Des chercheurs montrent que les function vectors extraits pour une paire de langues se transfèrent à d'autres langues cibles dans des LLMs multilingues.
Zindex propose une couche d'infrastructure dédiée à la génération et à la gestion de diagrammes pour les agents IA.
Anthropic ouvre une enquête interne après la détection d'un accès non autorisé à Mythos, l'un de ses modèles d'IA les plus puissants.
Un cadre formel pour adapter les explications XAI aux préférences individuelles des utilisateurs, via régression ordinale robuste.
Un nouveau dataset et une approche en deux étapes pour enrichir les réponses aux questions ouvertes au-delà de la simple restitution factuelle.
Google présente ses derniers TPU dédiés à l'entraînement et à l'inférence, intensifiant la concurrence avec Nvidia sur le marché des accélérateurs IA.
GoModel propose une gateway unifiée pour accéder à plusieurs fournisseurs LLM, développée en Go et publiée en open-source.
Un framework d'agents IA décompose les requêtes artistiques en plans de raisonnement structurés pour améliorer l'explication et la traçabilité des réponses.
Moonshot AI publie Kimi-VL-A3B-Thinking, un modèle vision-langage MoE compact avec capacités de raisonnement étendu, disponible en open-weights sur Hugging Face.
Un nouvel algorithme de planification exploite la régularité induite par l'entropie pour garantir une complexité polynomiale en échantillons.
Moonshot AI publie Kimi-VL-A3B-Instruct, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
Des chercheurs revisitent deux estimateurs basés sur les DPP pour améliorer la convergence de l'intégration Monte Carlo en réduisant la variance.
Un incident de sécurité chez Anthropic expose des accès non autorisés au système interne Mythos, soulevant des questions sur la protection des infrastructures IA.
Moonshot AI publie Kimi-VL-A3B-Thinking-2506, un modèle vision-langage MoE open-weights avec capacités de raisonnement étendu.
Kuri propose un navigateur orienté agents IA développé en Zig, alternative légère aux solutions existantes pour l'automatisation web.
Une équipe de chercheurs a analysé 15 millions de segments de discours parlementaires sur 80 ans pour mesurer le lien entre raisonnement factuel et qualité démocratique.
Moonshot AI publie Kimi-Linear-48B-A3B-Base, un modèle open-weights 48B paramètres avec seulement 3B actifs, basé sur une architecture linéaire.
Selon un post Bluesky, Anthropic envisagerait de retirer l'accès à Claude Code de son abonnement Pro grand public.
Une étude mathématique relie les propriétés de gap d'overlap (OGP) ultramétriques au cadre RDT paramétrique pour caractériser les seuils algorithmiques des perceptrons binaires symétriques.
Moonshot AI publie Kimi-Linear-48B-A3B-Instruct, un modèle MoE de 48 milliards de paramètres avec seulement 3B actifs par inférence.
Des chercheurs identifient un sous-espace interne aux LLMs alignant raisonnement en langage naturel et symbolique, sans entraînement supplémentaire.
La startup Trellis AI, issue de la promotion YC W24, cherche des ingénieurs pour développer des agents capables de s'améliorer d'eux-mêmes.
Moonshot AI publie Kimi-K2-Instruct sur Hugging Face, un modèle d'instruction large en open-weights issu de ses recherches internes.
Moonshot AI publie Kimi-K2-Base sur Hugging Face, un grand modèle de langage open-weights conçu pour les usages agentiques.
Brex publie CrabTrap, un proxy HTTP qui utilise un LLM en tant que juge pour intercepter et filtrer les requêtes d'agents IA en production.
Une nouvelle méthode de discrétisation adaptative corrige les limites du MSD-Splitting face aux distributions asymétriques, avec des gains de 2 à 4 % de précision.
À partir de 2026, Meta enregistrera les interactions informatiques de ses salariés afin de générer des données d'entraînement pour ses modèles d'IA.
TRI-ML publie VLA Foundry, un framework open-source qui unifie l'entraînement LLM, VLM et VLA dans une seule base de code.
Première analyse théorique de l'entraînement adversarial sur des architectures ViT simplifiées, révélant un phénomène d'overfitting bénin.
Moonshot AI publie Kimi-K2-Instruct-0905 sur Hugging Face, une version instruct mise à jour de son modèle frontier K2.
GitHub restructure ses abonnements individuels pour Copilot, avec des changements qui impactent les tarifs et les fonctionnalités accessibles.
Moonshot AI publie Kimi-K2-Thinking sur Hugging Face, un modèle orienté raisonnement issu de la famille K2.
Une méthode légère pour bénéficier du test-time scaling des politiques diffusion sans en payer le coût computationnel.
SpaceX aurait conclu un accord pour racheter l'éditeur de code assisté par IA Cursor dans une opération valorisée à 60 milliards de dollars.
FB-NLL découple le clustering des utilisateurs de la dynamique d'entraînement itératif pour résister aux labels corrompus en apprentissage fédéré personnalisé.
Moonshot AI publie Kimi-K2.5, un modèle frontier open-weights disponible sur Hugging Face, combinant raisonnement avancé et capacités multimodales.
L'auteur argumente que le modèle synchrone des agents IA atteint ses limites et que l'architecture asynchrone s'impose comme la prochaine norme.
Moonshot AI publie Kimi-K2.6 sur Hugging Face, un modèle de langage avancé en accès ouvert issu de ses travaux de R&D.
Le simulateur physique open-source de DeepMind refait surface sur Hacker News, rappelant son rôle central dans la recherche en robotique et en RL.
UniT propose un espace latent discret commun pour transférer les intentions motrices humaines vers des robots humanoïdes, sans données robotiques massives.
Moonshot AI publie Kimi-VL-A3B, un modèle multimodal open-weights basé sur une architecture MoE avec seulement 3B paramètres actifs.
Des rapports de vulnérabilités fabriqués par des LLM ont conduit à la suppression de code dans le noyau Linux, soulevant des inquiétudes sur la qualité des contributions automatisées.
Une étude systématique met en lumière la tension fondamentale entre sécurité et adaptation continue dans les systèmes RL confrontés à des dynamiques changeantes.
Simon Willison évalue GPT-Image-2 face à ses concurrents via un prompt inspiré de « Où est Charlie ? ».
Moonshot AI publie Kimi-Linear-A3B sur Hugging Face, un modèle à architecture linéaire de 3 milliards de paramètres actifs.
OpenAI déploie une nouvelle version de son module de génération d'images dans ChatGPT, avec un meilleur rendu du texte, le support multilingue et un raisonnement visuel avancé.
Une étude théorique révèle trois régimes limites distincts dans le comportement asymptotique des réseaux de neurones aléatoires infiniment larges.
Moonshot AI dévoile Kimi-K2, un modèle de grande taille disponible en open-weights sur Hugging Face, ciblant les tâches agentiques et le raisonnement.
Google dévoile sa 8e génération de TPU, avec deux variantes conçues pour répondre aux exigences des systèmes d'agents IA.
Anthropic a discrètement modifié sa page tarifaire pour réserver Claude Code aux plans Max, avant de faire marche arrière quelques heures plus tard.
Des chercheurs formalisent pourquoi entraîner un réseau à grands pas d'apprentissage — au bord du chaos — améliore la généralisation.
Mistral AI dévoile Voxtral TTS, son nouveau modèle de text-to-speech, élargissant sa gamme au-delà du texte et de la parole.
Google dévoile la huitième génération de ses TPU avec deux puces dédiées aux charges de travail agentiques et inférentielles.
Google DeepMind noue des partenariats avec de grands cabinets de conseil mondiaux pour déployer ses modèles frontier auprès des entreprises.
OpenAI publie un guide pratique sur les « Skills » de ChatGPT, permettant d'automatiser des tâches récurrentes et de standardiser les sorties.
Anthropic publie une étude inédite sur les effets de l'IA dans l'emploi, avec une nouvelle méthodologie de mesure et des résultats empiriques préliminaires.
Anthropic présente un outil permettant d'identifier automatiquement les écarts de comportement entre deux versions d'un modèle d'IA.
Anthropic explore comment ses modèles peuvent jouer le rôle d'un étudiant en thèse de physique, entre raisonnement scientifique et limites pratiques.
Anthropic prend position publiquement sur sa relation avec les contrats de défense américains et clarifie sa doctrine d'engagement.
Anthropic dévoile des avancées pour permettre à Claude de gérer des tâches de calcul scientifique s'étendant sur de longues périodes.
Anthropic publie son rapport trimestriel sur l'impact économique de l'IA, analysant les dynamiques d'adoption et d'apprentissage dans les usages professionnels.
Anthropic ouvre une nouvelle vitrine éditoriale pour partager ses travaux de recherche fondamentale sur l'IA avec la communauté scientifique.
Anthropic publie une analyse des usages de Claude en Australie, révélant les secteurs et tâches où l'IA générative s'intègre le plus.
Anthropic publie une recherche sur la façon dont les LLM représentent et utilisent des concepts émotionnels en interne.
Anthropic explore comment des LLM peuvent automatiser une partie du travail de recherche en alignement pour accélérer la supervision scalable.
Anthropic publie ses réflexions sur la conception d'agents IA fiables, entre sécurité, autonomie et supervision humaine.
Anthropic présente Claude non plus comme un simple assistant, mais comme un espace cognitif où l'utilisateur peut explorer ses pensées.
Anthropic annonce un partenariat avec Mozilla visant à améliorer la sécurité du navigateur Firefox grâce à l'IA.
Anthropic formalise un partenariat institutionnel avec Canberra pour avancer sur la sécurité et la recherche en IA.
Anthropic confirme l'ouverture d'un bureau à Sydney, poursuivant son expansion géographique en Asie-Pacifique.
Anthropic annonce la création d'un institut dédié à la formation et à la recherche sur l'IA responsable, ciblant les décideurs et professionnels.
Anthropic lance un programme partenaires doté de 100 M$ pour accélérer l'adoption de Claude dans l'écosystème entreprise.
Anthropic publie les résultats d'une vaste enquête menée auprès de 81 000 participants sur leurs attentes vis-à-vis de l'IA.
Anthropic renforce la gouvernance de son organe de contrôle indépendant avec l'arrivée du PDG de Novartis.
Anthropic annonce une expansion majeure de ses infrastructures de calcul en s'appuyant sur Google et Broadcom pour des capacités en gigawatts.
Anthropic lance le Projet Glasswing, une nouvelle initiative dont les contours restent à préciser mais qui témoigne des ambitions stratégiques du laboratoire.
OpenAI propose aux cliniciens des ressources pour intégrer ChatGPT dans le diagnostic, la documentation et le suivi patient via des outils conformes HIPAA.
Anthropic dévoile Claude Opus 4.7, une nouvelle version de son modèle phare alliant capacités avancées de raisonnement et performance accrue.
Hugging Face défend les modèles open-weights comme levier de confiance et de résilience face aux menaces cybersécurité émergentes.
Anthropic dévoile Claude Design, une nouvelle initiative de son laboratoire interne dédiée à l'expérience et au design des interfaces IA.
Nvidia et Hugging Face détaillent une méthode pour construire des agents conversationnels coréens culturellement cohérents via la génération de personas synthétiques.
TII et Hugging Face lancent QIMMA, un benchmark dédié à l'évaluation rigoureuse des grands modèles de langage en langue arabe.
Google intègre trois nouvelles capacités agentiques dans Ads Advisor pour renforcer la sécurité et accélérer la gestion des comptes publicitaires.
OpenAI lance Codex Labs et s'associe à Accenture, PwC et Infosys pour industrialiser l'agent de coding auprès des grandes entreprises.
OpenAI détaille comment les équipes marketing utilisent ChatGPT pour planifier des campagnes, produire du contenu et accélérer l'exécution.
Une étude benchmark compare plusieurs LLMs multilingues après réduction de vocabulaire, en ciblant les tâches NLP coréennes.
Un framework de machine learning réduit drastiquement les erreurs systématiques des modèles météo à 2-6 semaines, doublant la précision des prévisions IA de l'ECMWF.
L'algorithme Kometo atteint des performances optimales en optimisation multi-fidélité sans connaissance préalable de la régularité de la fonction.
Un nouveau benchmark en closed-book testing mesure la maîtrise des LLMs sur la taxonomie, le comportement et la biodiversité animale.
GRIFT exploite les gradients internes des modèles pour détecter les comportements de reward hacking invisibles à l'analyse textuelle des chaînes de raisonnement.
Un framework multimodal cross-attentif pour aligner audio et texte sur de longues séquences en contexte low-resource, avec double régularisation.
Un nouveau benchmark, CrossMath, révèle que les modèles vision-langage raisonnent principalement dans l'espace textuel, la vision dégradant souvent leurs performances.
Une étude compare la qualité des questions de compétence produites par des LLMs open et closed pour l'ingénierie d'ontologies, sur plusieurs domaines.
Une étude compare le sharpening de distribution et l'apprentissage par récompense de tâche, et montre pourquoi le second est fondamentalement supérieur.
Des chercheurs proposent un cadre basé sur les LLM pour évaluer la plausibilité humaine des sens de mots homonymes dans des récits courts.
Un workflow deep learning combinant Early Fusion, Late Fusion et Mixture of Experts pour cartographier conjointement les risques d'inondation et de glissement de terrain à l'échelle régionale.
Un cadre d'évaluation dual confronte GPT-4o, Claude 3 Opus, Gemini 1.5 Pro et Grok-1 sur la simplification du droit vietnamien.
Des chercheurs proposent MoIR, une méthode de fusion qui rééquilibre les contributions modales avant traitement par un LLM, sans se limiter à l'attention.
Un dataset annoté humainement de 5 049 exemples et un reward model spécialisé pour évaluer la qualité d'édition vidéo guidée par instructions.
La politesse améliore les réponses des LLMs jusqu'à 11 %, mais cet effet varie fortement selon la langue et le modèle testé.
Un nouveau framework enseigne aux LLMs à identifier les techniques clés dans les preuves mathématiques informelles, améliorant significativement leur raisonnement.
Un nouveau benchmark formule des tâches chimiques comme environnements RL, révélant que le post-training améliore fortement les petits modèles.
Une méthode en trois étapes exploite la covariance ambiante pour contraindre la géométrie tangente des autoencodeurs appliqués aux systèmes dynamiques stochastiques.
Une méthode combinant graphes de connaissances et LLM pour rendre les résultats de modèles ML accessibles aux opérateurs industriels.
Des chercheurs évaluent la capacité des LLMs à détecter des manipulations subtiles dans des codebases de recherche en machine learning.
Nathan Lambert analyse les dynamiques derrière l'essor des modèles ouverts en 2025 et les contradictions économiques qui les sous-tendent.
Nathan Lambert analyse GPT 5.4 dans Codex et estime que ce modèle marque un vrai franchissement dans la pratique agentique, au-delà des benchmarks classiques.
Nathan Lambert déconstruit le mythe de la récursivité pure : l'auto-amélioration des modèles de langage existe, mais reste fondamentalement « avec pertes ».
Un panorama inhabituel de modèles open : OCR, transcription audio, RAG, code, preuves mathématiques — au-delà des géants Qwen ou DeepSeek.
Nathan Lambert analyse ce qui différencie un modèle open-weights réussi dans un écosystème désormais très concurrentiel.
L'annonce de Claude Mythos relance le débat sur les risques des modèles open-weight. Nathan Lambert démonte les arguments alarmistes.
Nathan Lambert argumente que seul un consortium industriel peut financer durablement des modèles ouverts proches de la frontière technologique.
Un point sur plusieurs projets en cours : rapport sur l'écosystème open-source, livre RLHF et nouvelle métrique d'adoption des modèles.
Réduire l'écart entre modèles ouverts et fermés à un seul chiffre masque des dynamiques complexes que les benchmarks composites peinent à capturer.
Nathan Lambert analyse si les modèles open-weights peuvent tenir le rythme face aux labs fermés, et pose ses paris pour mi-2026.
Starlette 1.0 est sorti. Simon Willison explore cette version majeure du framework Python ASGI, socle de FastAPI, avec l'aide de Claude.
Simon Willison explore le vibe coding sur macOS avec Claude et GPT-5 pour créer des outils de monitoring système en SwiftUI, sans ouvrir Xcode.
Un modèle de 340 millions de paramètres entraîné sur 28 000 ouvrages britanniques du XIXe siècle, sans aucune donnée postérieure à 1899.
Simon Willison revient sur les points clés de son passage chez Lenny's Podcast : inflexion de novembre, dark factories, agents de code et impacts sur les développeurs.
Le post-mortem d'Axios révèle une campagne de manipulation sophistiquée visant personnellement un mainteneur du projet pour installer un RAT.
Trop puissant pour une diffusion publique, Claude Mythos n'est accessible qu'à un cercle restreint de partenaires triés sur le volet.
Simon Willison compare les deux grandes sorties du jour via son benchmark SVG fantaisiste : le modèle Alibaba l'emporte sur le nouveau Claude d'Anthropic.
Meta dévoile Muse Spark, modèle hébergé sans open weights, accessible via meta.ai et compétitif avec les grands modèles du marché.
La conférence Python annuelle revient en Californie du 13 au 19 mai 2026, avec deux nouvelles tracks dédiées à l'IA et à la sécurité.
Simon Willison analyse les différences entre les system prompts publiés par Anthropic pour Claude Opus 4.6 et 4.7, révélant de nouveaux agents et un renforcement de la sécurité.
Google lance Gemma 4, une nouvelle famille de modèles multimodaux open-weights conçus pour tourner directement sur les appareils.
Le format de sérialisation de tenseurs sécurisé développé par Hugging Face intègre officiellement l'écosystème de la Fondation PyTorch.
Hugging Face étend Sentence Transformers au multimodal : embeddings et reranking sur texte et images dans un même pipeline.
Hugging Face publie Waypoint-1.5, un modèle de génération de mondes interactifs optimisé pour tourner sur des GPU accessibles au grand public.
HCompany dévoile HoloTab, un compagnon IA intégré au navigateur pour augmenter la productivité en ligne.
Hugging Face revient sur une contribution open-source emblématique : comment un PR externe a amélioré l'intégration Transformers vers MLX.