RECHERCHE

LoKA : un framework FP8 pour les grands modèles de recommandation

Meta-scale recommandation : LoKA rend l'arithmétique FP8 viable là où les LLM avaient montré la voie, mais les modèles de reco résistaient.

arXiv cs.AI · cs.LG · cs.CL·Liang Luo, Yinbin Ma, Quanyu Zhu, Vasiliy Kuznetsov·11 mai 2026

Image · Source originale

LoKA (Low-precision Kernel Applications) est un framework conçu pour appliquer l'arithmétique basse précision FP8 aux grands modèles de recommandation (LRMs), historiquement incompatibles avec cette approche en raison de leur sensibilité numérique et de la dominance des petites GEMM. Le système repose sur trois composants : LoKA Probe (profilage statistique en ligne des activations et des poids), LoKA Mods (adaptations de modèles pour la stabilité numérique) et LoKA Dispatch (sélection dynamique des kernels FP8 les plus rapides). L'approche co-design système-modèle permet d'accélérer l'entraînement sans dégrader la qualité.

Chaleur 0

Pertinence 58

Nouveauté 72

OUVRIR LA SOURCE ↗

#FP8 #quantization #modèles-de-recommandation #entraînement #co-design