通过自然语言反馈训练，改进代码生成

Mar, 2023

通过自然语言反馈训练，改进代码生成

Improving Code Generation by Training with Natural Language Feedback

Angelica Chen, Jérémy Scheurer, Tomasz Korbak, Jon Ander Campos, Jun Shern Chan...

TL;DR本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性，ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现，并且比仅仅基于演示训练的方法更有效和更节省样本。

Abstract

The potential for pre-trained large language models (LLMs) to use natural language feedback at inference time has been an exciting recent development. We build upon this observation by formalizing an algorithm for learning from →

pre-trained large language models natural language feedback imitation learning from language feedback neural program synthesis codegen-mono

发现论文，激发创造

大规模语言反馈训练语言模型

利用语言反馈进行模仿学习 (ILF) 是一种新方法，可以有效提升大型预训练语言模型的摘要性能，并比使用对比反馈或人工摘要的方法更好。

Mar, 2023

利用语言反馈模型进行政策改进

我们引入了语言反馈模型（LFMs），用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习，我们改善了在三个不同的语言基础环境（Touchdown、ScienceWorld 和 ALFWorld）上强大的行为克隆基线的任务完成率。同时，与使用 LLMs 直接预测动作相比，LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力，通过一轮适应提高了 3.5-12.0% 的任务完成率。最后，LFM 可以进行修改以提供具有人类可解释性的反馈，而不会损失性能，从而允许人类验证模仿学习中的理想行为。

Feb, 2024

自我对弈并结合执行反馈：提升大型语言模型的指令执行能力

首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF，能够显著提高大型语言模型的指示遵循能力，有效应用于 SFT、Offline DPO 和 Online DPO 训练算法，可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。

Jun, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

LLF-Bench：交互学习语言反馈的基准测试

LLF-Bench 是一个用于评估 AI 代理从自然语言反馈和指导中进行交互学习能力的新基准，包括用户推荐、写诗、导航和机器人控制等任务，拥有随机化技术和统一的 OpenAI Gym 接口，可用于开发和测试 LLF 代理。

Dec, 2023

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

使用编译器生成的强化学习反馈来调整代码模型

通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证，提高了自动生成代码的正确性和可执行性，实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。

May, 2023

UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码

通过使用自动生成的合成数据集和自动化工具，我们改进了现有的大型语言模型（LLMs），使其能够生成高质量的用户界面（UI）代码，并通过与其他基准模型的比较证明了我们的方法的有效性。

Jun, 2024

Hints-In-Browser：针对编程反馈生成的语言模型基准测试

通过在浏览器中进行推理的新范式，基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示，本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准，展示了与浏览器推理引擎兼容的小型模型的反馈质量提升，并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性，同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。

Jun, 2024