房间里的大象——为什么AI安全需要多元团队
本文主要讨论随着人工智能的广泛应用,如何确保人工智能系统追求我们想要其追求的目标,区分直接对齐问题和社会对齐问题,并分析了不同解决方案。其中,直接对齐问题解决方法主要集中在更强大的实现;而社会对齐问题通常由于个人和群体层面目标之间的冲突而产生,因此需要强调人工智能治理以解决冲突,并同时执行现有规范并设计适用于人工智能系统的新规范。
May, 2022
为了确保人工智能系统的安全性和长期代理的保留,应该将人工智能系统设计为优先考虑代理的保留而不是人类意图的一致性,并且应该在“代理基础”领域进行研究,以改进我们对人工智能与人类交互中代理的理解。
May, 2023
AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.
Oct, 2023
人工智能在各个应用领域可以提高人类决策能力。理想情况下,人类与人工智能之间的合作应该能达到互补的团队表现,尽管迄今为止,很少观察到这种互补的现象,这表明对于决策中人工智能与人类合作中的互补成分的理解仍然不足。本文建立了一个关于理解和开发人工智能与人类互补性的整体理论基础。我们通过引入和形式化互补潜力及其实现的概念来概括互补性。此外,我们确定并概述了解释互补团队表现的来源。我们通过两项实证研究将我们的概念应用于实证验证两个不同的互补潜力源。第一项研究中,我们关注信息不对称作为一种来源,并在房地产评估应用案例中证明人类能够利用独特的背景信息实现互补团队表现。在第二项研究中,我们关注能力不对称作为另一种来源,展示了异质能力如何帮助实现互补团队表现。我们的工作为研究人员提供了关于人工智能决策中互补性的理论基础,并证明利用互补潜力来源是有效人工智能与人类合作的途径。
Mar, 2024
基金会模型的微调是为了避免不安全或有问题的行为,而利用人类反馈进行强化学习或采用宪法人工智能的方法,通过社会选择来处理潜在的人类意见分歧并影响模型的行为。
Apr, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对2019年至2024年1月间发表的400多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个“双向人工智能与人类对齐”的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
人工智能红队测试引起了很多有关人的因素的问题,如红队成员的选择、测试中的偏见和盲点,以及有害内容对红队员的心理影响。这篇研究探讨了相关实践的概念和实证挑战,并旨在促进一个能够创造性、创新性和深思熟虑地应对这些挑战的研究者和实践者社群。
Jul, 2024