RECHERCHE
TxFM : apprentissage de représentations biologiques par masquage de l'expression génique
Un nouveau modèle auto-supervisé surpasse des foundation models entraînés sur des corpus 100 fois plus grands grâce à une curation rigoureuse des données.
arXiv cs.AI · cs.LG · cs.CL·Kian Kenyon-Dean, Alina Selega, Ihab Bendidi, Jordan M. Sorokin·29 mai 2026

Image · Source originale
TxFM est un modèle self-supervised basé sur le masked autoencoding, conçu pour les données RNA-seq. Entraîné sur le corpus public DiverseRNA-1.4M, il produit des représentations géniques de haute qualité qui surpassent des foundation models transcriptomiques entraînés sur des corpus 100 fois plus volumineux. L'étude met en évidence l'importance cruciale de l'architecture et de la curation des données d'entraînement pour ce type de tâche.