LLM 对全球表征的非预期影响

Feb, 2024

Unintended Impacts of LLM Alignment on Global Representation

Michael J. Ryan, William Held, Diyi Yang

TL;DR通过对大型语言模型进行对齐，开发人员可以根据用户的偏好通过多种程序（如强化学习自人类反馈和直接偏好优化）将其用于面向用户的应用程序。然而，当前的评估过程侧重于指令遵循、推理和真实性等基准，而人类偏好并非普遍存在，对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能，包括英语方言、多语言和全球各国的观点。研究结果表明，当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后，我们讨论了导致这些意外影响的设计决策，并提出了更公平的偏好调整建议。

Abstract

Before being deployed for user-facing applications, developers align Large Language Models (LLMs) to user preferences through a variety of procedures, such as reinforcement learning from human feedback (RLHF) and

large language models alignment user preferences reinforcement learning from human feedback performance

发现论文，激发创造

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

通过表示工程将大型语言模型与人类偏好对齐

以表征工程为灵感，通过人类反馈实现对大型语言模型（LLMs）中高层人类偏好的相关表征的识别，并通过转变其表征来实现对模型行为的精确控制。RAHF 方法在捕捉和操作表征方面表现出出色的效果，能够对齐各种人类偏好，显示了推进 LLM 性能的潜力。

Dec, 2023

使用强化学习对语言模型进行私密对齐

通过强化学习和差分隐私，研究大型语言模型的隐私保护对齐，实验结果验证了该方法在保护隐私的同时提供了竞争力的效果。

Oct, 2023

将语言模型与人类偏好对齐

在本研究论文中，作者通过探索多种方法来与人类偏好对齐语言模型，包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等，从而展现了与强化学习反馈不同且互补的对齐技术的潜力。

Apr, 2024

线性对齐：无需调整和反馈的人类偏好对齐的闭式解法

基于语言模型的人工智能助手的成功依赖于从人类反馈中进行强化学习，而传统的对齐算法受到复杂的注释和训练要求的限制。本文引入了一种名为线性对齐的算法，通过一次推断步骤将语言模型与人类偏好对齐，消除了对数据注释和模型训练的依赖。线性对齐通过一种新的参数化方法对策略优化进行了改进，使得能够按照差异约束条件提取最优策略，并直接估计对齐的回应。广泛的实验表明，线性对齐显著提高了语言模型对齐在不同场景下的性能和效率。

Jan, 2024

强化学习的更多人类友好性，更多的信任？对语言模型可靠性的影响

研究发现在大型语言模型的发展中，通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善，但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究，发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此，需要更加微妙的方法对模型进行对齐，以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。

Apr, 2024

解剖人类和 LLM 偏好

通过对人类和重要语言模型的偏好进行细致分析，研究发现人类对错误不太敏感，倾向于支持他们的观点的回答，并且当模型承认其局限性时显示出明显的不喜欢。相反地，高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外，相似大小的语言模型往往表现出类似的偏好，无论它们的训练方法如何，并且对于仅预训练的语言模型来说，通过对齐进行微调并不显著改变其偏好。最后，研究发现基于偏好的评估可以被有意地操纵，将模型与评委的偏好保持一致将提高评分，而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化，例如在 MT-Bench 上高达 0.59 分（1-10 分制），在 AlpacaEval 2.0 上高达 31.94 分（0-100 分制），突显了这种战略性调整的重要影响。

Feb, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

人类驱动大型语言模型的对齐研究

综述了大型语言模型对齐技术的全面概述，包括数据收集、训练方法和模型评估，并提供了未来研究方向的启示，是了解和推进适应人类任务和期望的 LLM 对齐的宝贵资源。

Jul, 2023

MULTIVERSE: 在多样世界中揭示大型语言模型的对齐问题

我们发现大型语言模型在不同环境下存在不同程度的对齐问题，并通过构建多个上下文（称为世界）并利用相应的编译器，低成本地暴露潜在的对齐问题，从而进行大规模的对 LLM 对齐问题的研究，结果表明我们的方法在效果和效率上优于现有的破解技术。此外，我们的结果表明，现有的 LLMs 在嵌套世界和编程语言世界中存在极高的漏洞性，这暗示现有的对齐训练偏重于真实世界，对 LLMs 在各种（虚拟）世界中的潜在利用存在缺失。

Jan, 2024