房间里的大象——为什么AI安全需要多元团队

May, 2024

房间里的大象——为什么AI安全需要多元团队

The Elephant in the Room -- Why AI Safety Demands Diverse Teams

David Rostcheck, Lara Scheibling

TL;DR现有的AI安全和AI对齐方法可能不够有效，我们建议将对齐问题视为社会科学问题，并提出一种基于社会科学工具的替代对齐方法，该方法由三个步骤组成：定义人类/人工智能协作的积极期望社会结果，正确界定已知和未知，以及组建多样化团队来研究、观察和应对对齐中出现的挑战。

Abstract

We consider that existing approaches to AI "safety" and "alignment" may not be using the most effective tools, teams, or approaches. We suggest that an alternative and better approach to the problem may be to treat alignment as a social science problem, since the social sciences enjoy

发现论文，激发创造

AI系统的直接和社会目标是与谁协调的？

本文主要讨论随着人工智能的广泛应用，如何确保人工智能系统追求我们想要其追求的目标，区分直接对齐问题和社会对齐问题，并分析了不同解决方案。其中，直接对齐问题解决方法主要集中在更强大的实现；而社会对齐问题通常由于个人和群体层面目标之间的冲突而产生，因此需要强调人工智能治理以解决冲突，并同时执行现有规范并设计适用于人工智能系统的新规范。

May, 2022

意图一致的AI系统削弱人类代理能力：AI安全需要代理基础研究

为了确保人工智能系统的安全性和长期代理的保留，应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性，并且应该在“代理基础”领域进行研究，以改进我们对人工智能与人类交互中代理的理解。

May, 2023

AI对齐：一项综合调查

AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.

Oct, 2023

AI对齐在社会技术系统中的激励兼容性：地位与前景

探索如何利用博弈论的激励兼容性原则来弥合技术和社会组成部分之间的差距，以在不同的背景下与人类社会保持人工智能共识。

Feb, 2024

人工智能与人类合作的互补性：概念、来源和证据

人工智能在各个应用领域可以提高人类决策能力。理想情况下，人类与人工智能之间的合作应该能达到互补的团队表现，尽管迄今为止，很少观察到这种互补的现象，这表明对于决策中人工智能与人类合作中的互补成分的理解仍然不足。本文建立了一个关于理解和开发人工智能与人类互补性的整体理论基础。我们通过引入和形式化互补潜力及其实现的概念来概括互补性。此外，我们确定并概述了解释互补团队表现的来源。我们通过两项实证研究将我们的概念应用于实证验证两个不同的互补潜力源。第一项研究中，我们关注信息不对称作为一种来源，并在房地产评估应用案例中证明人类能够利用独特的背景信息实现互补团队表现。在第二项研究中，我们关注能力不对称作为另一种来源，展示了异质能力如何帮助实现互补团队表现。我们的工作为研究人员提供了关于人工智能决策中互补性的理论基础，并证明利用互补潜力来源是有效人工智能与人类合作的途径。

Mar, 2024

AI对齐的社会选择: 应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024

AI对准逆悖论

AI对齐存在悖论：我们越好地将AI模型与我们的价值观相一致，就越容易让对手使模型不一致。为确保人类福祉，必须确保广泛研究者共同意识到AI对齐悖论，并努力寻求突破途径。

May, 2024

衡量代理之间的错位

通过应用争论模型分析不同领域的案例研究，本研究旨在解决AI对齐问题中复杂的利益冲突，为AI工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。

Jun, 2024

朝双向人工智能对齐迈进：澄清、框架和未来发展的系统综述

近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性，这被广泛称为对齐。然而，人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定，而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白，我们对2019年至2024年1月间发表的400多篇论文进行了系统综述，涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定，并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究，即确保人工智能系统产生由人类确定的预期结果，以及调整人类与人工智能对齐的概念，旨在帮助个人和社会在认知和行为上适应人工智能进展。此外，我们阐述了文献分析的关键发现，包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展，我们展望了未来方向的三个关键挑战，并提出了潜在的未来解决方案的例子。

Jun, 2024

人在AI红队中的因素：社交与协作计算的视角

人工智能红队测试引起了很多有关人的因素的问题，如红队成员的选择、测试中的偏见和盲点，以及有害内容对红队员的心理影响。这篇研究探讨了相关实践的概念和实证挑战，并旨在促进一个能够创造性、创新性和深思熟虑地应对这些挑战的研究者和实践者社群。

Jul, 2024