利用执行反馈提升语言模型对学习者的帮助

May, 2023

利用执行反馈提升语言模型对学习者的帮助

Making Language Models Better Tool Learners with Execution Feedback

Shuofei Qiao, Honghao Gui, Huajun Chen, Ningyu Zhang

TL;DR该研究主要介绍了一种名为 TRICE 的基于执行反馈的二阶段端到端框架，使语言模型通过从工具执行中得出的反馈不断学习，从而学习何时以及如何有效地使用工具，实验结果表明，TRICE 可以通过减少模型对工具的依赖性来选择性地使用工具，同时提高性能。

Abstract

tools serve as pivotal interfaces that enable humans to understand and reshape the world. With the advent of foundational models, ai systems can utilize →

tools ai language models trice execution feedback

发现论文，激发创造

利用大型语言模型为人类导师提供解释性反馈

研究表明，学习者参与制作解释以支持他们的推理过程，对学习有积极影响。本文介绍了两种方法，可供教师在在线课程中提供实时反馈，并介绍了采用大型语言模型促进的命名实体识别的增强方法的进展。

Jun, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

从零开始照看语言模型：通过试验和演示进行交互式语言学习

通过系统性可控实验，我们研究了互动交互对神经语言学习的影响，发现通过教师示范和学生尝试，互动式语言学习有助于语言模型的词汇学习效率提高。

May, 2024

利用语言反馈模型进行政策改进

我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Feb, 2024

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Jun, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

通过自然语言反馈训练，改进代码生成

本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Mar, 2023

生成模型的自动评估与指令调优

基于指令调优的学习度量可以提供自然语言生成的自动评估，通过对多任务的联合训练，可以进一步改善性能，对未来的少量或无人标注数据的任务具有积极意义。

Oct, 2023

部署后学习新技能：通过人类反馈改进基于互联网的开放领域对话

研究利用互联网检索获取更新信息并从人类反馈中提升网络聊天技能的算法，并表明了利用 Director 模型可以显著提高性能。

Aug, 2022