从分布到 Overton 多元主义：研究大型语言模型的对齐问题

Jun, 2024

从分布到 Overton 多元主义：研究大型语言模型的对齐问题

From Distributional to Overton Pluralism: Investigating Large Language Model Alignment

Thom Lake, Eunsol Choi, Greg Durrett

TL;DR对语言模型执行对齐过程会改变其输出分布的多个属性。研究分析了语言模型响应的对齐后分布漂移的两个方面，发现对齐过程抑制了无关和无用的内容，将输出分布转向覆盖基础语言模型中多个响应的信息，从而在单个响应中提供多样化的信息。此外，研究还表明基础模型可以通过上下文示例和低分辨率的语义提示来产生与对齐模型相似的响应，进一步证明了对齐技术对基础语言模型的有用行为进行了捕捉，切实模拟了对齐后的语言模型响应，而无需进行精细调整。

Abstract

The alignment process changes several properties of a large language model's (LLM's) output distribution. We analyze two aspects of post-alignment distributional shift of LLM responses. First, we re-examine previously reported reductions in →

alignment process response diversity information aggregation base models superficial alignment hypothesis

发现论文，激发创造

语言模型抗拒对准

本文研究针对大型语言模型的对齐微调对模型的影响，并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练，可能是数量级上的差距，从而导致模型性能迅速下降并最终恢复到预训练阶段的分布，同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性，从而克服大型语言模型对对齐微调的抵抗。

Jun, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

基于上下文学习的重新思考对齐的解锁咒语

通过对基于 SFT 和 RLHF 的对齐方法的分析，我们发现通过 ICL 方法 URIAL，使得基于语言模型的对齐方法不再需要 SFT 或 RLHF 来实现高效对齐，并且实验证明 URIAL 的性能与基于 SFT 或 SFT+RLHF 的方法相媲美甚至更优。这些结果表明，对于未来的 LLM 研究来说，更深入的对齐分析和理论理解至关重要。

Dec, 2023

大型语言模型对齐：一项调查

大型语言模型（LLMs）的对齐方法研究，包括外部和内部对齐方法，探讨了其可解释性和对抗攻击的潜在漏洞以及评估方法，并展望了未来的研究方向。

Sep, 2023

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

通过双向对齐改善上下文学习

大型语言模型通过在上下文中学习（ICL）在许多任务上展示了令人印象深刻的少量样本泛化能力。本研究提出了双向对齐（BiAlign）方法，旨在充分利用模型对 ICL 示例的偏好，提高较小模型的 ICL 能力。通过与大型模型的输入偏好对齐，同时对齐令牌级别的输出分布，BiAlign 在语言理解、推理和编码等各种任务中超过了现有基准。

Dec, 2023

开源大型语言模型的安全性：对齐是否真的能防止滥用？

通过直接操纵开放源代码的大型语言模型的生成过程，我们展示了它们容易被引导生成不受欢迎的内容，包括有害或有偏见信息甚至私人数据，这表明需要更先进的开源语言模型缓解策略。

Oct, 2023

通过合成反馈对齐大型语言模型

本研究提出了一个新的框架，利用奖励建模 (RM) 方法和模拟高质量演示来进行对齐语言模型的训练，避免了对已对齐的 LLMs 的依赖，这种方法的结果是，我们的模型 ALMoST 在对 InstructGPT 或人工注释指令训练的开放源代码模型中表现良好，我们的 7B 大小的模型在使用 GPT-4 作为评判员的 A /B 测试中表现优异，平均获胜率约为 75％。

May, 2023

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024