对齐器：解耦LLMs和对齐

Mar, 2024

Aligners: Decoupling LLMs and Alignment

Lilian Ngweta, Mayank Agarwal, Subha Maity, Alex Gittens, Yuekai Sun...

TL;DR通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个“道德”对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Abstract

large language models (LLMs) need to be aligned with human expectations to ensure their safety and utility in most applications.

发现论文，激发创造

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的LLM对齐的宝贵资源。

Jul, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

对齐器：当对齐大型语言模型时，一个全局令牌等于数百万个参数

Aligner是一种参数高效的微调方法，通过构建一组全局共享的可调节的令牌来修改每一层的注意力，即使仅使用一个包含5000个参数的令牌，Aligner仍然可以与需要数百万个参数的LoRA等最先进的LLM适应方法表现相当好。这个方法除了在参数效率上的巨大改进外，还提供了对LLM内部机制的宝贵见解，这个发现有望促进对LLM机制理解和价值对齐的新研究。

Dec, 2023

无人工指导的有限样本LLM自校准

我们研究了如何在样本有限的情况下，通过使用上下文学习示例和迭代调整算法，自动对齐大型语言模型，以实现几乎不需要人工监督的自我泛化对齐能力。

Jan, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过Aligner的监督信号进行微调，进而应用于不同的开源和API-based模型。此外，Aligner提供了很大的性能提升，如对11种不同的LLMs平均提升18％的有用性和23％的无害性（GPT-4提升26.9％和17.5％），对Llama2-70B使用Aligner-7B的监督进行微调，可以提高Llama2的有用性8.2％和无害性61.6％。

Feb, 2024

DeAL: 大型语言模型解码时间对齐

提出了一种名为DeAL的框架，通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标，弥补模型训练中的残缺缺陷，并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。

Feb, 2024

对齐重新排版

通过重新格式化响应，ReAlign方法显著提升了LLMs的整体对齐能力、数学推理能力、事实性和可读性，而不引入额外数据或高级训练技术。

Feb, 2024

提升LLMs的可扩展自动对齐：调查

通过系统回顾最近出现的自动对齐方法，本文旨在探索如何在大型语言模型的能力超越人类之后实现有效、可扩展的自动对齐。我们将现有的自动对齐方法分为四个主要类别，并讨论每个类别的当前状态和潜在发展。此外，我们探讨了使自动对齐技术可行和有效的基本因素，从对齐的基本作用角度阐述了自动对齐的潜在机制。

Jun, 2024

ABC Align：大型语言模型的安全性与准确性对齐

本研究解决了大型语言模型对齐问题的缺失，提出了一种新颖的方法——ABC Align，通过整合大型媒体组织的标准和偏好，实现对模型的优化。研究发现，该方法有效降低了偏见，提高了准确性，同时保持了推理能力，具有重要的应用潜力。

Aug, 2024

你弱的LLM秘密地是一个强大的对齐教师

本研究针对大型语言模型（LLM）在对齐方面的挑战，提出了一种利用弱LLM的创新方法。实验结果显示，弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈，揭示了模型规模对反馈有效性影响的最小化，从而为可扩展和可持续的对齐策略提供了新视角。

Sep, 2024