May, 2024

反转-RL对齐:基于示范的反推强化学习用于LLM对齐

TL;DR利用高质量的演示数据,我们提出了一种名为AfD的新方法,通过在顺序决策框架中形式化AfD,解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战,我们通过引入分歧最小化目标来解决AfD独特的缺失奖励信号的问题,并提出了一个在定制奖励模型上超出的计算效率算法,通过在Harmless和Helpful任务上的实验证明了我们的关键见解,展示了其强大的经验性能,并保持了简洁性。