RECHERCHE

TxFM : apprentissage de représentations biologiques par masquage de l'expression génique

Un nouveau modèle auto-supervisé surpasse des foundation models entraînés sur des corpus 100 fois plus grands grâce à une curation rigoureuse des données.

arXiv cs.AI · cs.LG · cs.CL·Kian Kenyon-Dean, Alina Selega, Ihab Bendidi, Jordan M. Sorokin·29 mai 2026

Image · Source originale

TxFM est un modèle self-supervised basé sur le masked autoencoding, conçu pour les données RNA-seq. Entraîné sur le corpus public DiverseRNA-1.4M, il produit des représentations géniques de haute qualité qui surpassent des foundation models transcriptomiques entraînés sur des corpus 100 fois plus volumineux. L'étude met en évidence l'importance cruciale de l'architecture et de la curation des données d'entraînement pour ce type de tâche.

Chaleur 0

Pertinence 45

Nouveauté 68

OUVRIR LA SOURCE ↗

#biologie #RNA-seq #self-supervised learning #foundation models #drug discovery