AlpacaFarm：从人类反馈中学习的方法的仿真框架

May, 2023

AlpacaFarm：从人类反馈中学习的方法的仿真框架

AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback

Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani...

TL;DR本文介绍 AlpacaFarm，一个低成本的模拟器，旨在帮助研究人员开发和了解从反馈学习的复杂工作流程。经过验证，AlpacaFarm 提供的人工反馈模拟与真实人类反馈具有高度一致性，且利用其提供的多种学习方法（如 PPO）可以取得较大的学习改善，优于传统的监督微调。

Abstract

large language models (LLMs) such as ChatGPT have seen widespread adoption due to their ability to follow user instructions well. Developing these LLMs involves a complex yet poorly understood workflow requiring

large language models alpacafarm learning from feedback workflow simulator

发现论文，激发创造

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

用于中文 LLaMA 和 Alpaca 的高效有效文本编码

本研究旨在通过在大规模语言模型的基础上加强中文语义理解能力来解决其部署困难和开放性挑战，提出了 LLaMA 和 Alpaca 大规模语言模型，通过在中文数据集上进行预训练和指令微调，使其可以更好地执行指令，并通过 GitHub 开源该项目，为开放研究提供了基础资源。

Apr, 2023

从自我参照 AI 反馈中对齐大型语言模型的一个通用原则

通过自我引用的 AI 反馈框架，允许 13B Llama2-Chat 模型以 “最适合人类” 的原则为基准，对用户指令回应进行批判，从而提供高质量的偏好反馈，并通过自洽性方法减少位置偏差的影响、使用语义困惑度来计算不同回答的偏好强度差异，实验证明该方法使 13B 和 70B Llama2-Chat 注释器能够提供高质量的偏好反馈，并且基于这些偏好数据训练的策略模型在基准数据集上通过强化学习取得了显著的优势。

Jun, 2024

AlpaGasus: 用更少的数据训练更好的羊驼

本研究提出了一种数据选取策略，利用一个强大的大型语言模型（ChatGPT）自动地识别和删除低质量的数据，从而过滤出高质量的数据并训练指令跟随模型。通过使用该策略，作者利用仅有的 9k 条高质量数据训练出了一个新的大型语言模型 AlpaGasus，相比于 Alpaca 的 52k 数据集，在多个测试集上获得了更好的表现。同时，AlpaGasus 提供了 5.7 倍更快的训练速度，训练时间从 Alpaca 的 80 分钟减少到了 14 分钟。该方法展示了一种数据中心的指令跟随模型训练范式，可广泛应用于指令调整数据，提高训练效率和准确率。

Jul, 2023

Okapi: 指令调整的多语言大型语言模型及基于人类反馈的强化学习

Okapi 是第一个基于 RLHF 进行多语言指导调整的系统，引入 26 种不同语言的指导和回应排序数据，以促进未来多语言 LLM 研究的实验和发展。

Jul, 2023

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

ToolAlpaca：3000 个模拟案例的通用工具学习语言模型

本文介绍了一种名为 ToolAlpaca 的新框架，旨在利用最少的人为干预，在紧凑的语言模型上生成工具使用语料库并学习广义工具使用能力。实验结果表明，ToolAlpaca 实现了与 GPT-3.5 等极其大型语言模型相当的有效广义工具使用能力，证实了紧凑语言模型的学习广义工具使用能力是可行的。

Jun, 2023

大型语言模型作为用户模拟器

通过从真实人机对话中提取的人类问题作为学习目标，我们训练出了用户模拟器 UserGPT，产生了高质量的以人为中心的合成对话数据集 RealChat。实验结果表明，我们的模型在 Vicuna-Bench 和 MT-Bench 中优于基线模型，手动评估也表明我们的模型具有极高的竞争力。通过与最新 LLaMA 2 模型进行微调，ReaLM 在 MT-Bench 中获得了 6.33 的领先分数，超过了其他同等规模的模型，包括 LLaMA-2-7B-chat 模型。我们的方法还展示了可扩展性和可迁移性，并对训练集数据质量与模型性能之间的相互作用进行了初步探索，为未来的研究奠定了坚实的基础。

Aug, 2023

自奖励语言模型

通过自我奖励语言模型的迭代 DPO 训练，本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升，最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4 0613。这项初步研究为模型在两个方向上不断改进的可能性打开了大门。

Jan, 2024