NeMo-Aligner：高效模型对齐的可扩展工具包

May, 2024

NeMo-Aligner：高效模型对齐的可扩展工具包

NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment

Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong...

TL;DR用于大规模语言模型对齐的 NeMo-Aligner 工具包可以高效地扩展到使用数百个 GPU 进行训练，支持 Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN) 等主要模型对齐范式，并具有 Parameter Efficient Fine-Tuning (PEFT) 支持。

Abstract

Aligning large language models (LLMs) with human values and preferences is essential for making them helpful and safe. However, building efficient tools to perform alignment can be challenging, especially for the

large language models alignment nemo-aligner toolkit model alignment

发现论文，激发创造

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

CoLLiE: 高效方式中的大型语言模型的协同训练

这篇论文介绍了 CoLLiE，一种高效的库，通过 3D 并行性、参数高效微调方法和优化器，如 Lion、Adan、Sophia、LOMO 和 AdaLomo，促进了大型语言模型的协作训练。CoLLiE 在预训练和微调场景中证明了其卓越的训练效率，并在吞吐量方面进行了综合比较各种优化器和 PEFT 方法。

Dec, 2023

大型语言模型对齐的低冗余优化

在这篇研究论文中，研究人员通过对大型语言模型（LLMs）的经验研究发现了对齐训练中存在的冗余神经元，并提出了一种名为 ALLO 的低冗余对齐方法。该方法通过梯度策略识别与人类偏好数据相关的神经元，通过奖励模型计算损失来识别与对齐相关的关键词汇，并将对齐过程分解为遗忘和学习阶段，通过更新不同比例的神经元实现。实验证明 ALLO 的有效性。

Jun, 2024

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

对齐器：当对齐大型语言模型时，一个全局令牌等于数百万个参数

Aligner 是一种参数高效的微调方法，通过构建一组全局共享的可调节的令牌来修改每一层的注意力，即使仅使用一个包含 5000 个参数的令牌，Aligner 仍然可以与需要数百万个参数的 LoRA 等最先进的 LLM 适应方法表现相当好。这个方法除了在参数效率上的巨大改进外，还提供了对 LLM 内部机制的宝贵见解，这个发现有望促进对 LLM 机制理解和价值对齐的新研究。

Dec, 2023

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

为临床任务对齐大型语言模型

大型语言模型在临床应用中的关键性挑战是对其进行有效的对齐，以实现准确生成具备事实内容和非平凡推理能力的响应。本研究提出了一种名为 “扩展 - 猜测 - 精化” 的医学问题回答的对齐策略，该策略通过采用指令调整和少样本以及连续思考等方法显著提高了大型语言模型的性能。初步分析表明，该方法在从 USMLE 数据集中选取的问题子集上达到了 70.63% 的优异表现。

Sep, 2023

鲁棒即插即用适应性的解耦对齐

我们介绍了一种低资源安全增强方法，用于对齐大型语言模型（LLMs），无需受过监督的精调或来自人类反馈的强化学习。我们的主要思想是利用知识蒸馏从现有的良好对齐的 LLMs 中提取对齐信息，并以即插即用的方式整合到未对齐的 LLMs 中。通过使用增量调试来识别有效蒸馏所需的关键知识组成部分的方法，我们的方法在有害问题数据集上显著提高了平均防御成功率，约为 14.41％，最高可达 51.39％，在 17 个未对齐的预训练 LLMs 中，而不会损害性能。

Jun, 2024