RECHERCHE

Conception de signaux de récompense pour la génération de requêtes portables dans la recherche d'emploi sémantique

Un framework RLAIF appliqué à la recherche d'emploi révèle les failles du reward shaping avec GRPO et propose un correctif déterministe contre le verbatim-copying.

arXiv cs.AI · cs.LG · cs.CL·Ping Liu, Qianqi Shen, Jianqiang Shen, Wenqiong Liu·25 juin 2026

Image · Source originale

Des chercheurs présentent un framework RLAIF end-to-end pour générer des requêtes de recherche d'emploi « portables », abstraites des identifiants personnels. Leurs expériences montrent que pour les optimiseurs sans critique, la qualité dépend avant tout du reward shaping. GRPO s'avère particulièrement vulnérable au reward hacking par verbatim-copying, tandis qu'un plancher de récompense déterministe corrige ce défaut avec un gain de +0,147 sur un juge cross-famille. Le modèle de récompense à l'entraînement gonfle les gains par 2,4×.

Chaleur 11

Pertinence 62

Nouveauté 65

OUVRIR LA SOURCE ↗

#RLAIF #reward-shaping #GRPO #LLM-as-judge #NLP