RECHERCHE

GateGPT : un Transformer atteint 56 000 tokens/s sur FPGA à 80 MHz

Une implémentation matérielle d'un Transformer avec KV cache sur FPGA atteint 56 000 tokens par seconde à seulement 80 MHz.

Hacker News (filtré IA)·@laxmena·16 juin 2026

Image · Source originale

Le projet GateGPT démontre qu'un Transformer avec cache KV peut être déployé sur FPGA en atteignant 56 000 tokens par seconde à une fréquence de 80 MHz. Cette performance sur matériel reconfigurable à basse fréquence illustre le potentiel des accélérateurs custom pour l'inférence LLM en dehors des GPU. L'approche ouvre des perspectives pour des déploiements embarqués ou à faible consommation énergétique.

Chaleur 15

Pertinence 68

Nouveauté 78

OUVRIR LA SOURCE ↗

#FPGA #inférence #transformer #KV-cache #hardware