Toutes les news taguées avec ce sujet.
Une généralisation du Direct Preference Optimization exploitant la structure complète des graphes de préférences pour mieux aligner les LLM.