RECHERCHE
GateGPT : un Transformer atteint 56 000 tokens/s sur FPGA à 80 MHz
Une implémentation matérielle d'un Transformer avec KV cache sur FPGA atteint 56 000 tokens par seconde à seulement 80 MHz.
Hacker News (filtré IA)·@laxmena·16 juin 2026

Image · Source originale
Le projet GateGPT démontre qu'un Transformer avec cache KV peut être déployé sur FPGA en atteignant 56 000 tokens par seconde à une fréquence de 80 MHz. Cette performance sur matériel reconfigurable à basse fréquence illustre le potentiel des accélérateurs custom pour l'inférence LLM en dehors des GPU. L'approche ouvre des perspectives pour des déploiements embarqués ou à faible consommation énergétique.