机器语言模型中对齐和有用性之间的权衡

Jan, 2024

机器语言模型中对齐和有用性之间的权衡

Tradeoffs Between Alignment and Helpfulness in Language Models

Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine...

TL;DR语言模型对齐是 AI 安全的重要组成部分，通过增强期望行为和抑制非期望行为，使人类和语言模型之间进行安全交互。在这篇论文中，我们研究了对齐增加和模型有用性减少之间的权衡，并提出了一个理论框架，以在实证上证明其相关性。我们发现，当表示工程向量的范数线性增加时，模型的对齐线性增加，而模型的有用性则呈二次减少，这表明表示工程的使用是有效的。我们通过实验证实了我们的发现，并勾勒出表示工程在对齐中的有用性边界。

Abstract

language model alignment has become an important component of AI safety, allowing safe interactions between humans and language models, by enhancing desired behaviors and inhibiting undesired ones. It is often done by tuning the model or inserting preset aligning prompts. Recently, rep

language model alignment representation engineering alignment-oriented tasks adversarial attacks social biases

发现论文，激发创造

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

通过表示工程将大型语言模型与人类偏好对齐

以表征工程为灵感，通过人类反馈实现对大型语言模型（LLMs）中高层人类偏好的相关表征的识别，并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果，能够对齐各种人类偏好，显示了推进 LLM 性能的潜力。

Dec, 2023

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

大型语言模型中对齐的基本限制

本文提出了一种名为行为期望范围（BEB）的理论方法，用于正式研究大型语言模型对齐的几种固有特性和限制，揭示了 LMM 对齐的根本局限性，并凸显了确保 AI 安全的可靠机制的必要性。

Apr, 2023

诚实对齐

应用对齐技术以增强大型语言模型（LLMs）的有益性和无害性，保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义，以及定义了《论语》所启发的 “诚实” 的基石，解决了识别 LLM 知识限度的挑战，并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术，通过提出的度量方法，证明这些对齐模型在诚实性方面有显著提高。

Dec, 2023

LLM 对全球表征的非预期影响

通过对大型语言模型进行对齐，开发人员可以根据用户的偏好通过多种程序（如强化学习自人类反馈和直接偏好优化）将其用于面向用户的应用程序。然而，当前的评估过程侧重于指令遵循、推理和真实性等基准，而人类偏好并非普遍存在，对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能，包括英语方言、多语言和全球各国的观点。研究结果表明，当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后，我们讨论了导致这些意外影响的设计决策，并提出了更公平的偏好调整建议。

Feb, 2024

语言模型抗拒对准

本文研究针对大型语言模型的对齐微调对模型的影响，并通过理论和实证分析回答了这个问题。我们发现对齐微调过程对对齐的破坏程度远超于预训练，可能是数量级上的差距，从而导致模型性能迅速下降并最终恢复到预训练阶段的分布，同时发现模型的弹性与模型大小增加和预训练数据的扩展具有正相关性。这一发现表明了驯化大型语言模型固有的弹性的重要性，从而克服大型语言模型对对齐微调的抵抗。

Jun, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

两全其美：迈向一个真实和有用的大型语言模型

这篇论文介绍了如何通过确保大语言模型的诚实和帮助性来优化其在实际应用中的表现，包括建立诚实的准则、引入数据集进行评估和提出两种增强诚实和帮助性的方法。实验证明，这些增强方法可以显著提升大语言模型的诚实性和帮助性，有望为开发更可靠的实际应用语言模型奠定基础。

Jun, 2024

与人类表征的对齐支持强大的少样本学习

通过信息理论分析和计算机视觉模型的实验，我们发现 AI 系统的世界表示与人类的相似度呈现 U 形关系，并表明高度相似的模型在少量数据、对抗攻击和领域转换方面更具鲁棒性和泛化能力，表明人类对齐通常是模型充分利用有限数据、鲁棒性和良好泛化的足够但不必要的条件。

Jan, 2023