通过自然语言反馈训练,改进代码生成
我们引入了语言反馈模型(LFMs),用于在指令跟随的模仿学习中识别理想行为 - 有助于实现指令中所述任务的行为。通过使用 LFMs 识别理想行为进行模仿学习,我们改善了在三个不同的语言基础环境(Touchdown、ScienceWorld 和 ALFWorld)上强大的行为克隆基线的任务完成率。同时,与使用 LLMs 直接预测动作相比,LFMs 在控制 LLMs 输出令牌数量的情况下取得了更好的效果。LFMs 具有泛化到未见环境的能力,通过一轮适应提高了 3.5-12.0% 的任务完成率。最后,LFM 可以进行修改以提供具有人类可解释性的反馈,而不会损失性能,从而允许人类验证模仿学习中的理想行为。
Feb, 2024
首个可自动生成指示遵循训练数据的可扩展可靠方法 AutoIF,能够显著提高大型语言模型的指示遵循能力,有效应用于 SFT、Offline DPO 和 Online DPO 训练算法,可在自对齐和强对弱蒸馏设置下用于开源 LLMs 的优化。
Jun, 2024
通过模型中人类反馈的学习,改进大型语言模型(LLMs)的输出与人类期望的一致性,利用人类反馈信号中以响应对的排名形式的强化学习,研究使用自然语言反馈模型的数据效率,通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进,提高了模型的响应质量。
Nov, 2023
LLF-Bench 是一个用于评估 AI 代理从自然语言反馈和指导中进行交互学习能力的新基准,包括用户推荐、写诗、导航和机器人控制等任务,拥有随机化技术和统一的 OpenAI Gym 接口,可用于开发和测试 LLF 代理。
Dec, 2023
该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。
Dec, 2023
通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证,提高了自动生成代码的正确性和可执行性,实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。
May, 2023
通过使用自动生成的合成数据集和自动化工具,我们改进了现有的大型语言模型(LLMs),使其能够生成高质量的用户界面(UI)代码,并通过与其他基准模型的比较证明了我们的方法的有效性。
Jun, 2024
通过在浏览器中进行推理的新范式,基于生成技术的人工智能和大型语言模型能够在编程教育中生成个性化反馈和提示,本文通过基准测试语言模型在编程反馈生成中的质量、成本、时间和数据隐私等多个性能标准,展示了与浏览器推理引擎兼容的小型模型的反馈质量提升,并使用 WebLLM 的浏览器推理引擎在三个不同的 Python 编程数据集上展示了经过精调的 Llama3-8B 和 Phi3-3.8B 4 位量化模型的有效性,同时提供完整的实现、Web 应用和数据集以促进进一步的浏览器语言模型研究。
Jun, 2024