Toutes les news taguées avec ce sujet.
DrPO propose une méthode d'alignement par préférence pour les générateurs text-to-image déterministes en un seul forward pass, sans rétropropagation de la reward.
Un nouveau framework applique GRPO aux modèles multimodaux AR-Diffusion pour activer le raisonnement et l'auto-correction sans phase de démarrage à froid.
Un cadre d'orchestration guidé par spécifications qui maintient des engagements sémantiques tout au long du cycle de génération d'images.
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
xAI lance un mode haute qualité pour la génération d'images Grok Imagine, accessible via son API.