RECHERCHE
Distillation de connaissances stabilisée pour la détection de clones de code cross-langages
Un framework transfère les capacités de raisonnement de DeepSeek-R1 vers des modèles compacts open-source pour détecter des clones de code entre langages de programmation.
arXiv cs.AI · cs.LG · cs.CL·Mohamad Khajezade, Fatemeh H. Fard, Mohamed Sami Shehata·4 mai 2026

Image · Source originale
La détection de clones de code cross-langages (X-CCD) reste difficile car des programmes sémantiquement équivalents partagent peu de similarités syntaxiques. Les auteurs proposent un framework de knowledge distillation à partir de DeepSeek-R1 vers des modèles compacts (Phi3, Qwen-Coder) via LoRA, entraînés sur des paires de code synthétiques issues de CodeNet. Des méthodes de stabilisation des réponses — forced conclusion prompting, têtes de classification binaire et contrastive — améliorent la fiabilité et réduisent le temps d'inférence sur quatre paires de langages.