RECHERCHE
Influcoder : distiller les rankings d'influence des décodeurs dans un encodeur pour l'attribution de données
Une méthode rapide et économique pour identifier quels exemples d'entraînement influencent les sorties des LLM, à grande échelle.
arXiv cs.AI · cs.LG · cs.CL·Dimitri Kachler, Damien Sileo, Pascal Denis·11 juin 2026

Image · Source originale
Influcoder propose une approche d'attribution de données (Data Attribution) basée sur les fonctions d'influence, conçue pour être déployée à grande échelle sur de larges datasets. Les méthodes existantes d'influence functions sont efficaces mais trop lentes et gourmandes en mémoire pour être pratiques sur les LLM modernes. Influcoder distille les rankings d'influence issus de décodeurs dans un encodeur compact, permettant d'identifier les échantillons responsables de comportements indésirables comme la toxicité.