利用语言反馈模型进行政策改进

Feb, 2024

Policy Improvement using Language Feedback Models

Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

TL;DR我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Abstract

We introduce language feedback models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in →

language feedback models instruction following imitation learning behaviour identification task completion rate

发现论文，激发创造

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

稀疏人力监督下的交互多保真度学习，实现经济有效的语言模型适应

我们提出了一种新颖的交互式多保真度学习（IMFL）框架，用于在有限标注预算下以低成本开发小型领域特定的大语言模型，通过平衡低保真度自动标注和高保真度人工标注之间的最佳获取策略，杂质高显学习先进医学和金融任务，在有限的人工标注预算下，IMFL 比人工标注基线在所有四个任务中表现出更好的性能，其中两个任务的性能接近人工标注。

Oct, 2023