多语言对齐棱镜：调和全球和本地偏好以减少伤害

Jun, 2024

多语言对齐棱镜：调和全球和本地偏好以减少伤害

The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm

Aakanksha, Arash Ahmadian, Beyza Ermis, Seraphina Goldfarb-Tarrant, Julia Kreutzer...

TL;DR在不同语言和文化偏好的非均质集合中优化全球和局部危害，同时解决 “对齐到什么” 的问题，本文研究了不同对齐方法的可行性，通过收集人工标记的红队测试提示生成了全球和局部危害的新的数据集，建立了开创性的对齐技术的先例，在 6 种语言中保持了一般性能的最小降级，为保护全球人口利益而设计的 AI 系统提供了重要的洞见。

Abstract

A key concern with the concept of "alignment" is the implicit question of "alignment to what?". ai systems are increasingly used across th

alignment ai systems safety measures cultural preferences cross-lingual transfer

发现论文，激发创造

LLM 对全球表征的非预期影响

通过对大型语言模型进行对齐，开发人员可以根据用户的偏好通过多种程序（如强化学习自人类反馈和直接偏好优化）将其用于面向用户的应用程序。然而，当前的评估过程侧重于指令遵循、推理和真实性等基准，而人类偏好并非普遍存在，对特定偏好进行对齐可能会产生意想不到的影响。本文研究了对齐如何影响全球表达的性能，包括英语方言、多语言和全球各国的观点。研究结果表明，当前的对齐程序导致了英语方言和全球观点之间的差异。我们发现对齐改善了多种语言的性能。最后，我们讨论了导致这些意外影响的设计决策，并提出了更公平的偏好调整建议。

Feb, 2024

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

个性化在界限内：与个性化反馈对其进行对齐的大型语言模型的风险分类和策略框架

本文探讨了对大型语言模型进行个性化对齐以确保其符合人类偏好和价值观的挑战和风险，并提出了一个三层次政策框架，以使用户可以体验到个性化对齐的好处，同时在国家和组织范围内控制不安全或不受欢迎的行为。

Mar, 2023

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

大语言模型的单次安全对准

将安全限制与人类偏好对齐的计算方法，通过预优化光滑凸函数，消除了原始 - 对偶策略迭代的繁琐过程，大大降低了计算负担和提高了训练稳定性。

May, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

理解与人类反馈一致性的学习动态

通过理论分析学习动态，我们提供了对人类偏好对齐的理论观察，揭示了优化算法可能优先考虑具有更高偏好区分度的行为，并通过实证验证对现代语言模型和对齐任务加深了对未来方法的认识。

Mar, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

PRISM 对鲍尔语言模型的主观和多元文化对齐的参与式、代表性和个性化人类反馈

PRISM 是一项以人为导向的研究，通过调查 1,500 个来自 75 个国家具有不同社会经济背景和偏好的参与者与 21 个 LLMs 的 8,011 个实时对话，探讨人类反馈收集的方法、领域、人员和目标，并通过对话多样性、偏好多样性和福利结果等案例研究证明了 PRISM 的有用性，提倡更广泛的参与 AI 开发和更包容的技术设计。

Apr, 2024