宪法人工智能：来自人工智能反馈的无害性

Dec, 2022

宪法人工智能：来自人工智能反馈的无害性

Constitutional AI: Harmlessness from AI Feedback

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion...

TL;DR通过制定一套规则或原则，通过自我改善代替人工标记，使用有监督学习和强化学习构建的 “宪法 AI”，能够更精确地控制 AI 行为并提高透明度和性能。

Abstract

As ai systems become more capable, we would like to enlist their help to supervise other AIs. We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a l

ai systems constitutional ai supervised learning reinforcement learning chain-of-thought style reasoning

发现论文，激发创造

宪法人工智能的具体原则与普遍原则

人类反馈可以防止对话模型中明显有害的话语，但不能自动减轻隐蔽的问题行为，如为自我保护或权力而表达的愿望。宪法人工智能提供了一种替代方法，用仅基于一份书面原则的人工智能模型的反馈取代人类反馈。我们发现这种方法能有效防止这种行为的表达。简单原则的成功使我们问：模型能否仅通过一份书面原则学习普遍的道德行为？为了测试这一点，我们进行了实验，使用了一个大致规定为 “为人类做最好的事情” 的原则。我们发现，最大的对话模型可以从这份简短的宪法中概括出来，产生无害的助手，没有对特定动机（如权力）表示兴趣。因此，一个普遍原则可能在一定程度上避免对潜在有害行为进行长列表宪法的需要。然而，更详细的宪法仍然可以提高对特定类型伤害的细粒度控制。这表明，通用和特定原则都对安全引导人工智能具有价值。

Oct, 2023

HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进

通过使用 AI 反馈进行增强学习（RLAIF）在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习（RLHF）具有更短的注释周期和更低的成本，使其效率更高。本文提出了混合增强学习来自 AI 反馈（HRLAIF）方法，通过增强 AI 注释的准确性，使模型在训练过程中的帮助更可靠，并且通过 AI 进行红队行动，进一步提高模型的无害性。与 RL 之前的策略模型相比，HRLAIF 方法在满意率上实现了 2.08% 的增加，有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。

Mar, 2024

利用人类反馈进行强化学习训练有益且无害的助手

应用偏好建模和强化学习的方法将语言模型优化为有帮助和无害的助手，对几乎所有的自然语言处理评估表现都有提高，与训练针对特定技能（如 Python 编程和摘要）的方法相容。通过迭代在线模式的训练，每周使用新的人类反馈数据更新偏好模型和强化学习策略，有效改进了数据集和模型。同时，研究了强化学习从人类反馈中学习的鲁棒性和重要性，提出了奖励和策略之间的 KL 散度平方根的近似线性关系。除此之外，对校准、竞争目标和 OOD 检测的使用进行了边缘分析，并将模型与人类作家进行了比较，并提供了使用最新相关工作中出现的提示的模型样本。

Apr, 2022

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

通过人类反馈进行强化学习的 AI 对齐？矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了 RLxF 技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024

无须试错：通过人类干预实现安全强化学习

通过引入人类监督和一个受过训练的学习器，当前的无模型强化学习可以避免所有的监管灾难性问题，但在更复杂的任务上其效果有限，需要进行进一步改进。

Jul, 2017

IterAlign: 大型语言模型的迭代式结构对齐

使用迭代自对准框架 IterAlign，通过红队测试自动发现和纠正大型语言模型的弱点，提出了一个数据驱动的基于宪法的自对准方法，能够显著改善大型语言模型的对齐性能。

Mar, 2024

公共宪政人工智能

为确保人工智能系统具备有效治理所需的合法性，本文提出了 “公众宪政人工智能” 方法，通过多元利益相关者参与制定人工智能发展的原则，形成 “人工智能宪法”，以实现人工智能治理与公众意愿的真正民主合法性，并建立 “人工智能法庭” 以发展 “人工智能判例法”，为在人工智能培训中落实宪政原则提供具体示例。该方法旨在通过民主审议过程来确立人工智能治理的基础，使自动化机构具备真正的民主合法性，应对不断增强的人工智能系统所带来的独特挑战，并确保其与公共利益保持一致。

Jun, 2024

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023