RECHERCHE

Distillation de connaissances stabilisée pour la détection de clones de code cross-langages

Un framework transfère les capacités de raisonnement de DeepSeek-R1 vers des modèles compacts open-source pour détecter des clones de code entre langages de programmation.

arXiv cs.AI · cs.LG · cs.CL·Mohamad Khajezade, Fatemeh H. Fard, Mohamed Sami Shehata·4 mai 2026

Image · Source originale

La détection de clones de code cross-langages (X-CCD) reste difficile car des programmes sémantiquement équivalents partagent peu de similarités syntaxiques. Les auteurs proposent un framework de knowledge distillation à partir de DeepSeek-R1 vers des modèles compacts (Phi3, Qwen-Coder) via LoRA, entraînés sur des paires de code synthétiques issues de CodeNet. Des méthodes de stabilisation des réponses — forced conclusion prompting, têtes de classification binaire et contrastive — améliorent la fiabilité et réduisent le temps d'inférence sur quatre paires de langages.

Chaleur 0

Pertinence 58

Nouveauté 65

OUVRIR LA SOURCE ↗

#knowledge distillation #détection de clones #code #LLM #fine-tuning