能够免费自动对准吗？

Jun, 2024

Is Free Self-Alignment Possible?

Dyah Adila, Changho Shin, Yijing Zhang, Frederic Sala

TL;DRAlignEZ 是一种使用自动生成的偏好数据和表示编辑来几乎零成本对齐预训练语言模型的新方法，通过减少不必要且提升有利的组件，并利用自动生成的偏好对来识别子空间，这一几乎零成本的过程显著缩小了基本预训练模型和调整模型之间的差距（平均缩小 31.6%），并且可以用作加快更昂贵对齐过程的手段，同时提供了它的有效性条件下的有价值洞察。

Abstract

Aligning pretrained language models (LMs) is a complex and resource-intensive process, often requiring access to large amounts of ground-truth preference data and substantial compute. Are these costs necessary? That is, it is possible to align using only inherent model knowledge and wi

pretrained language models alignment preference data representation editing cost-free procedure

发现论文，激发创造

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024

无人工指导的有限样本 LLM 自校准

我们研究了如何在样本有限的情况下，通过使用上下文学习示例和迭代调整算法，自动对齐大型语言模型，以实现几乎不需要人工监督的自我泛化对齐能力。

Jan, 2024

语言模型抗拒对准

本文研究针对大型语言模型的对齐微调对模型的影响，并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练，可能是数量级上的差距，从而导致模型性能迅速下降并最终恢复到预训练阶段的分布，同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性，从而克服大型语言模型对对齐微调的抵抗。

Jun, 2024

通过自标注的词对齐改进预训练的跨语言语言模型

该研究探讨了使用去噪词对齐作为新的跨语言预训练任务的方法，通过在双语对中进行自我标注的单词对齐，结合指针网络来预测清理片段中被屏蔽的单词及其在另一种语言中的对应单词，并在期望值最大化的方式下交替进行两个步骤，实验结果表明该方法在各种数据集上提高了跨语言可传递性。

Jun, 2021

对齐器：解耦 LLMs 和对齐

通过使用合成数据训练可调整的模型，我们提出了一种解耦大型语言模型和对齐过程的方法，以确保其在大多数应用中的安全性和实用性，并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。

Mar, 2024

参数高效调整助于语言模型对齐

对大型语言模型进行人类偏好的对齐是确保其安全和有用的关键。先前的研究主要采用强化学习和直接偏好优化等方法进行对齐，但存在某些局限性。为了克服这些限制，本文提出了一种参数高效调优的对齐方法（MEET），通过改进控制标记的质量，在两个知名数据集上相比之前的方法明显提高了可控生成的质量。

Oct, 2023

参数高效偏好对齐技术的深入探讨

对大型语言模型（LLM）的先前训练和参数微调的对齐方法进行了深入研究，研究了对齐数据集、对齐技术和模型对下游性能的影响，提出了帮助研究人员进行更有效参数节约 LLM 对齐的关键指南。

Jun, 2024

用表示编辑来对齐大型语言模型：一个控制的观点

通过表示编辑的方法，提出了一种通过在预训练的自回归大型语言模型上引入外部控制信号，以实现特定目标对齐的方法，实验证明该方法在测试时间上优于现有的测试时间对齐技术，并且相对于微调方法需要较少的资源。

Jun, 2024

公平偏好引导改进人工对齐的大型语言模型判断

使用大型语言模型 (LLMs) 进行语言生成质量评估既具有成本效益又不需要参考样本表明其具有很大潜力。然而，LLMs 表现出偏好偏向和对提示设计敏感。在本研究中，我们发现即使在语义上等效的指示下，LLMs 的预测偏好可能非常脆弱和倾斜。因此，我们提出了一种自动的零 - shot 评估导向提示优化框架 ZEPO，旨在产生更公平的偏好决策并提高 LLM 评估器与人类判断的一致性。通过基于偏好决策公平性的零 - shot 学习目标，ZEPO 在代表性元评估基准上显示出显著的性能改进，无需标定数据。我们的发现强调了偏好公平性和人类一致性之间的关键关联，将 ZEPO 定位为弥合 LLM 评估器与人类判断之间差距的有效提示优化器。

Jun, 2024

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式 Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询 - 答案 - 校正数据集上训练的自回归 seq2seq 模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过 Aligner 的监督信号进行微调，进而应用于不同的开源和 API-based 模型。此外，Aligner 提供了很大的性能提升，如对 11 种不同的 LLMs 平均提升 18％的有用性和 23％的无害性（GPT-4 提升 26.9％和 17.5％），对 Llama2-70B 使用 Aligner-7B 的监督进行微调，可以提高 Llama2 的有用性 8.2％和无害性 61.6％。

Feb, 2024