RECHERCHE
Cybersécurité multi-sources : un dataset labellisé ATT&CK et évaluation de SLMs
Un nouveau dataset de 2,3 millions d'événements couvrant logs système, réseau et navigateur, labellisés selon le framework MITRE ATT&CK.
arXiv cs.AI · cs.LG · cs.CL·Abir Ashab Niloy, Ahmed Ryan, Imamul Hossain Rafi, Md Erfan·16 juin 2026

Image · Source originale
Les chercheurs publient un dataset multi-sources de 870 sessions (70 attaques, 800 bénignes) avec environ 2,3 millions d'événements capturés simultanément sur des endpoints Windows. Chaque événement malveillant est annoté avec des identifiants de techniques ATT&CK, couvrant 12 tactiques et 53 techniques. Trois Small Language Models (Qwen2.5-1.5B, Llama-3.2-3B, Phi-4-Mini) ont été fine-tunés via LoRA et évalués sur deux tâches : classification de chunks et identification de techniques ATT&CK.