回顾智慧让语言模型成为更好的指令跟随者
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。
Nov, 2023
通过 Chain of Hindsight 技术,可以用各种形式的反馈来 fine-tuning 语言模型,从而使得它们可以更好地满足人类的偏好,具有更好的性能。
Feb, 2023
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对 RLHF 的挑战进行了描述,为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手,对几乎所有的自然语言处理评估表现都有提高,与训练针对特定技能(如 Python 编程和摘要)的方法相容。通过迭代在线模式的训练,每周使用新的人类反馈数据更新偏好模型和强化学习策略,有效改进了数据集和模型。同时,研究了强化学习从人类反馈中学习的鲁棒性和重要性,提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外,对校准、竞争目标和 OOD 检测的使用进行了边缘分析,并将模型与人类作家进行了比较,并提供了使用最新相关工作中出现的提示的模型样本。
Apr, 2022
探讨了以回顾性标签为指导的交互学习,通过理论分析证明了任何算法的后悔度必须与代理的响应空间的规模成比例,并基于低秩矩阵的特殊设定引入了名为 LORIL 的算法,并证明了它的后悔度与回合数的平方根成比例,而不以代理的响应空间的大小为依据,最后通过两个领域的实验表明了 LORIL 优于基准算法。
Apr, 2024
研究探讨了使用生成对抗反馈的强化学习(RLGAF)方法,以弥补人类评估者的专业知识和生产力限制并帮助对齐大型语言模型(LLMs)的输出,从而为进一步实现 AI 对准提供了前景。
May, 2023
强化学习与 AI 反馈(RLAIF)是改进强大的预训练语言模型的指令遵循能力的流行范式。我们提出了一个问题,即对于 AI 反馈来说,这个 RL 步骤的复杂性是否真的有必要。我们发现,RL 步骤的改进主要归因于使用比用于 AI 反馈生成的评论者模型较弱的教师模型进行 SFT 数据收集的普遍做法。此外,我们发现 RLAIF 的收益在基础模型系列、测试时评估协议和评论者模型之间存在显著差异。最后,我们针对何时 SFT 可能优于完整的两步 RLAIF 流程以及如何使 RLAIF 在实践中最大化使用提供了一个机制解释和建议。
Feb, 2024
本文提出使用机器人强化学习来学习自然语言目标表示的问题。通过提出回顾指令重播机制、seq2seq 模型和基于语言的学习任务,解决了自然语言的组合性和触觉数据和行为之间的联系问题,并展示了学习性能的提高。
Apr, 2022