2 items

#DPO

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SAFETY
heat 62
Le paradoxe du pessimisme : l'entraînement offline conservateur amplifie le reward hacking
Une étude empirique montre que plus un modèle est conservateur en offline, plus il est vulnérable au reward hacking lors de l'adaptation online.
RECHERCHE
heat 52
LeVo 2 : génération de chansons stables et mélodieuses par modélisation hiérarchique
Un framework hybride LLM-Diffusion capable de générer des chansons complètes en combinant planification sémantique et raffinement acoustique par piste.