May, 2024

自我探索的语言模型:在线对齐的主动偏好引导

TL;DR通过自我探索语言模型 (SELM) 优化固定在人类意图上的大型语言模型 (LLM),比起直接优化偏离分布的模型,SELM 目标减少了无差别的偏好和提高了探索效率。