自我对弈微调将弱语言模型转化为强语言模型

Jan, 2024

自我对弈微调将弱语言模型转化为强语言模型

Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu

TL;DR通过自我对弈优化学习，无需专家对手，实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究

Abstract

Harnessing the power of human-annotated data through supervised fine-tuning (SFT) is pivotal for advancing large language models (LLMs). In this paper, we delve into the prospect of growing a strong LLM out of a

supervised fine-tuning self-play fine-tuning large language models self-generated responses human-level performance

发现论文，激发创造

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

自我博弈语言模型的正则化研究

本文研究了在自我对抗的语言模型对齐环境中，各种正则化形式的效果。通过将参照策略与基本策略几何混合，我们提出了 KL（Kullback-Leibler）正则化方法以解决 SPIN（自我对抗 fine-tuning）学习阶段的性能不稳定问题，并通过采用虚构博弈的思想来平滑对手策略。我们还通过在 MT-Bench 和 Hugging Face Open LLM Leaderboard 上进行实证研究来验证我们的方法。

Apr, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023

重新审视自训练用于语言模型的小样本学习

本研究介绍了一种最先进的基于提示的少样本学习器 ——SFLM，该模型使用自训练技术来对语言模型进行微调，仅依赖于少量未标记的领域内数据，并在句子分类和句子对分类基准任务上优于其他最先进的监督和半监督对手。

Oct, 2021

通过监督微调向大规模语言模型注入新知识

研究了在最新的体育事件领域中，通过具有监督的微调方法对大规模语言模型进行知识注入的有效性，并比较了基于令牌和基于事实缩放的不同数据集生成策略，发现基于事实缩放提供了更为系统的方法来确保对所有事实的均匀覆盖。通过 SFT 进行更有效的知识吸收，从而显著提高了与领域外知识相关的问答任务的性能，为领域适应性和提高大规模语言模型响应准确性的潜力做出了贡献。

Mar, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

通过语言反馈教授语言模型自我提升

本文提出了自我优化调整（SRT）方法，利用模型反馈来对齐大规模语言模型（LLMs），减少对人类注释的依赖，实现基础模型的自我评估和输出改进，从而促进持续学习。经验证明，SRT 在不同任务和模型大小上明显优于强基线模型，特别是在 AlpacaEval 2.0 基准测试上，对于 70B 参数模型，胜率从 9.6% 提升至 25.8%，超过 GPT-4-0314、Claude 2 和 Gemini 等已建立的系统，语言反馈在 SRT 的成功中起着关键作用。

Jun, 2024

SALMON：自我对齐与遵循原则的奖励模型

该研究提出了一种名为 SALMON 的新方法，使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，通过调整原则控制奖励模型的偏好，进而影响强化学习训练的策略的行为，消除了对在线人类偏好收集的依赖，其在各种基准数据集上显著超越了几种最先进的人工智能系统，包括 LLaMA-2-Chat-70b，提高了监督效率、可控性和可扩展性。

Oct, 2023

语言模型对齐的自我游戏偏好优化

提议了一种基于自对弈的语言模型对齐方法，称为 SPPO，通过迭代策略更新近似求解纳什均衡策略，可以有效提高所选择的响应的对数似然并降低所拒绝响应的对数似然，同时在多个实验中表现优于其他基于对称成对损失的方法。

May, 2024