May, 2024

增值取样用于语言模型对齐和个性化

TL;DR通过价值增强抽样(VAS)的奖励优化框架,不需要共同训练策略和值函数的情况下,最大化不同奖励函数,相较于现有基线模型,在标准基准测试中不仅优于 PPO 和 DPO,而且与 Best-of-128 相比具有更低的推理成本,从而实现了优化的稳定性,并能适应仅作为 API 提供的 LLMs(例如 ChatGPT),同时为对齐的个性化 LLMs 的未来铺平道路。