AI 对准逆悖论
AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.
Oct, 2023
当前的大型语言模型仍然容易受到对抗攻击,使其表现出不安全的行为,这一基本问题不仅对当前的人工智能系统尚未解决,而且在不严重削弱其能力的情况下可能难以解决,同时也对未来和更具能力的人工智能系统的安全性提出了担忧。
Nov, 2023
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本文主要讨论随着人工智能的广泛应用,如何确保人工智能系统追求我们想要其追求的目标,区分直接对齐问题和社会对齐问题,并分析了不同解决方案。其中,直接对齐问题解决方法主要集中在更强大的实现;而社会对齐问题通常由于个人和群体层面目标之间的冲突而产生,因此需要强调人工智能治理以解决冲突,并同时执行现有规范并设计适用于人工智能系统的新规范。
May, 2022
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
人工智能可能会超越人类,然而,如果不采取措施,其可能学会不符合人类期望的目标,并使用追求权力的策略,导致人类无法控制其行为。因此,该研究概述了该问题及其研究方向。
Aug, 2022
通过应用争论模型分析不同领域的案例研究,本研究旨在解决 AI 对齐问题中复杂的利益冲突,为 AI 工程师确保系统最大程度地与多样化的人类利益对齐提供了有代表性的价值数据。
Jun, 2024
该研究探讨人工智能对齐问题,阐述了一个包含四个层次(个人、组织、国家和全球)的框架,分别考虑这些层次的价值观对人工智能的影响,以及这些价值观之间相互影响的方向,最后通过介绍 AI 内容审核这个案例,展示了该框架的应用。
Jan, 2023
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024