Feb, 2024

上下文奖励:基于动态偏好调整的多目标基础模型对齐

TL;DR通过 Rewards-in-Context(RiC)的方法,本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法,并通过监督微调在推断过程中支持用户偏好的动态调整,从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相比,对齐大型语言模型(LLMs)和扩散模型以适应多样化的奖励。