Toutes les news taguées avec ce sujet.
Le DPO, technique d'alignement popularisée pour les assistants conversationnels, trouve des applications bien plus larges dans l'écosystème IA.
Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.