RECHERCHE

Détection multilingue de la polarisation par ensemble de modèles Gemma avec augmentation de données synthétiques

Un système basé sur Gemma 3 fine-tuné par langue via LoRA atteint un F1 moyen de 0,811 sur 22 langues, classé 2e au SemEval-2026.

arXiv cs.AI · cs.LG · cs.CL·Srikar Kashyap Pulipaka·6 mai 2026

Image · Source originale

Ce système pour la tâche SemEval-2026 Task 9 fine-tune des modèles Gemma 3 (12B et 27B paramètres) par langue via LoRA, enrichis de données synthétiques générées par GPT-4o-mini selon trois stratégies. Un ensemble pondéré des prédictions combiné à un calibrage des seuils par langue apporte 2 à 4 % de gain en F1. Le système atteint un macro-F1 moyen de 0,811 sur 22 langues (2e rang général). Les architectures alternatives XLM-RoBERTa et Qwen3 ont subi des chutes de 30 à 50 % en F1 sur le jeu de test.

Chaleur 0

Pertinence 55

Nouveauté 52

OUVRIR LA SOURCE ↗

#fine-tuning #LoRA #multilingual #détection-polarisation #données-synthétiques