Xwin-LM：强大且可扩展的 LLM 对齐实践

May, 2024

Xwin-LM：强大且可扩展的 LLM 对齐实践

Xwin-LM: Strong and Scalable Alignment Practice for LLMs

Bolin Ni, JingCheng Hu, Yixuan Wei, Houwen Peng, Zheng Zhang...

TL;DRXwin-LM 是一套适用于大型语言模型（LLM）的综合对齐方法学，包括 SFT、RM、RS 和 DPO 等关键技术，并通过 AlpacaEval 和 MT-bench 的评估证明了其稳定和可扩展性。

Abstract

In this work, we present xwin-lm, a comprehensive suite of alignment methodologies for large language models (LLMs). This suite encompasses several key techniques, including →

xwin-lm alignment methodologies large language models supervised finetuning reward modeling

发现论文，激发创造

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

参数高效偏好对齐技术的深入探讨

对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。

Jun, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小 LLM 对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

对比型偏好优化：推动机器翻译中 LLM 性能的边界

大型语言模型在机器翻译方面表现出良好的性能，但是使用监督微调的方式仍存在一些问题，本研究引入了对比优选优化 (CPO) 方法来改进性能。通过将 CPO 应用于 ALMA 模型，可以在限定的数据和参数规模下达到与竞赛获胜者及 GPT-4 相当甚至超过其性能的 ALMA-R 模型。

Jan, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

大型语言模型的教学对齐

介绍了针对教育领域的新概念 —— 教育对齐的大型语言模型 (LLMs)，它作为脚手架工具将复杂问题分解为可管理的子问题，并通过反馈和提示引导学生寻找最终答案。研究表明，通过对齐的强化学习方法在提高 LLMs 的性能方面表现优越，同时在线反馈对于提升教育对齐型 LLMs 的表现也具有潜力，为这些模型在教育环境中的发展提供了有价值的见解。

Feb, 2024