RECHERCHE
ZPPO : distiller un teacher via le prompt plutôt que les gradients
Une méthode d'optimisation inspirée de Vygotsky intègre le teacher directement dans le prompt pour guider les petits LLMs sans rompre l'hypothèse on-policy.
arXiv cs.AI · cs.LG · cs.CL·Byung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang·16 juin 2026

Image · Source originale
ZPPO (Zone of Proximal Policy Optimization) contourne les limites de la distillation de connaissances et du RL classique en injectant les réponses du teacher dans le prompt plutôt que dans le gradient de politique. Sur les questions difficiles, deux types de prompts reformulés (BCQ et NCQ) amènent le student à discriminer des réponses correctes/incorrectes ou à identifier ses propres erreurs. Un buffer de replay recircule les questions jusqu'à ce que le student les maîtrise. Testé sur la famille Qwen3.5 (0,8B–9B), ZPPO améliore la généralisation sur plusieurs familles de benchmarks.