May, 2024
自我探索的语言模型:在线对齐的主动偏好引导
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment
Shenao Zhang, Donghan Yu, Hiteshi Sharma, Ziyi Yang, Shuohang Wang...
TL;DR通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。