RECHERCHE
Au-delà des performances : décodage des embeddings bioacoustiques via des caractéristiques vocales
Une étude révèle quelles propriétés acoustiques sont réellement encodées dans les modèles de représentation bioacoustique pré-entraînés.
arXiv cs.AI · cs.LG · cs.CL·Ines Nolasco, Jules Cauzinille, Marius Miron, Gagan Narula·12 juin 2026

Image · Source originale
Des chercheurs analysent les embeddings bioacoustiques pré-entraînés à l'aide de 88 caractéristiques eGeMAPS, appliquées sur six groupes taxonomiques via des sondes de régression linéaires et non linéaires. Les résultats confirment un effet « no free lunch » : aucun modèle seul ne couvre l'ensemble de l'espace de caractéristiques. La concaténation des embeddings offre les meilleures performances. Les caractéristiques de loudness sont bien encodées (R²=0,76) tandis que le F0 reste difficile à restituer (R²=0,33).