RECHERCHE

FusionRS : un dataset RGB-infrarouge à grande échelle pour les modèles vision-langage en télédétection

Des chercheurs publient FusionRS, le premier dataset RGB-IR-texte massif pour entraîner des modèles vision-langage bimodaux en observation de la Terre.

arXiv cs.AI · cs.LG · cs.CL·Jiaju Han, Ben Zhang, Xuemeng Sun, Qike Zhang·15 juin 2026

Image · Source originale

FusionRS est le premier dataset à grande échelle combinant images RGB, infrarouge synthétique et descriptions textuelles pour la télédétection. Les paires RGB-IR sont générées par traduction de style, accompagnées de légendes classiques et de légendes IR-aware décrivant les propriétés thermiques. Sur cette base, des modèles CLIP bimodaux et des VLMs génératifs sont entraînés, améliorant l'alignement RGB-IR, la récupération infrarouge-texte et le captioning dual-modal par rapport aux configurations RGB seules.

Chaleur 4

Pertinence 55

Nouveauté 72

OUVRIR LA SOURCE ↗

#vision-langage #télédétection #infrarouge #multimodal #dataset