AI 对齐的社会选择：应对多样化的人类反馈

Apr, 2024

AI 对齐的社会选择：应对多样化的人类反馈

Social Choice for AI Alignment: Dealing with Diverse Human Feedback

Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs...

TL;DR基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Abstract

foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, so that, for example, they refuse to comply with requests for help with committing crimes or with producing racist text. One approach to →

foundation models fine-tuning reinforcement learning from human feedback constitutional ai social choice

发现论文，激发创造

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

演进 AI 集体以增强人类多样性和实现自我调节功能

大型语言模型根据其他人生成的文本来引导它们的行为。这种能力以及它们在在线环境中越来越普遍的存在预示着它们将有意或无意地 “编程” 彼此并形成新兴的人工智能主体性、关系和集体。在这里，我们呼吁研究界调查这些互动人工智能的 “类社会” 属性，以增加它们对人类社会和在线环境健康的回报并减少风险。我们使用一个简单的模型及其输出来说明这样的新兴分散型人工智能集体如何扩大人类多样性范围并降低在线毒性和反社交行为的风险。最后，我们讨论了人工智能自我调节的机会，并解决了与创建和维护分散型人工智能集体相关的道德问题和设计挑战。

Feb, 2024

人本机制设计与民主人工智能

通过 Democratic AI 方法，使用强化学习算法在参与者中探讨和设计社交机制来解决人工智能与人类价值观的对齐问题，有效缓解了财富分配不均，制止了搭便车行为并成功地赢得了大众的信任和认可。

Jan, 2022

通过人类反馈进行强化学习的 AI 对齐？矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了 RLxF 技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024

使用人类反馈的 AI 对准研究中的方法论思考

本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战，特别是针对训练总结文本的 LLMs。具体地，我们关注的是收集可靠人类反馈的方法，以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。

Dec, 2022

面向困难度调整的课程强化学习中的人类决策

研究人员设计了一个交互平台，利用人类的决策过程，通过向导课程强化学习结果，实现了成功地调整强化学习性能以适应人类期望困难程度的目标，并证明人类与计算机互动式课程增强学习的有效性，促进了该领域的发展。

Aug, 2022

宪法人工智能：来自人工智能反馈的无害性

通过制定一套规则或原则，通过自我改善代替人工标记，使用有监督学习和强化学习构建的 “宪法 AI”，能够更精确地控制 AI 行为并提高透明度和性能。

Dec, 2022

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024

通过群不变学习提高对人类偏好的对齐的泛化能力

通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。

Oct, 2023

谁的偏好？公平偏好的差异及其对利用人类反馈的人工智能公平性的影响

通过从人类反馈中学习，我们考虑在内容审查中公平性的设置，在比较两个评论时，人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现，与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关，公平偏好存在显著差异，并且文本中提到的人口统计学信息对用户感知个体公平性有着强烈影响。此外，我们发现在预测人类偏好的下游分类器中也存在差异。最后，我们观察到在给定相等权重的不同人口统计注释训练的集成模型中，针对不同人口统计交叉部分表现更好，相比于给每个注释相等权重的单个分类器。

Jun, 2024