AI 对齐对话:支持代理的 AI 对齐交互式方法
AI 对齐是确保 AI 产生期望结果而无副作用的总体问题,可以从安全性、人类价值以及设计和评价交互式 AI 系统的界面的角度进行考虑。本文将 AI 对齐的概念映射到一个基本的三步交互循环中,得到相应的对齐目标:1)规范对齐:确保用户能够高效、可靠地与 AI 沟通目标;2)过程对齐:提供验证和可选控制 AI 执行过程的能力;3)评估支持:确保用户能够验证和理解 AI 的输出。我们还介绍了替代过程的概念,即 AI 实际过程的简化、分离且可控的表示;以及过程差异(Process Gulf)的概念,强调人类和 AI 过程之间的差异可能导致 AI 控制方面的挑战。为了说明该框架的价值,我们描述了商业和研究系统在每个对齐维度上的情况,并展示了提供交互对齐机制的界面如何带来不同且改善的用户体验。
Oct, 2023
我们认为,支持人工智能对话能够实现联合推理(即 “询问”),对于确保人工智能决策符合人类价值观和偏好非常重要。我们特别指出,基于逻辑的辩论和对话模型以及关注于劝说对话的传统方法应该改为关注于询问对话,并阐述了联合询问所带来的不同挑战。鉴于大规模语言模型(LLMs)性能的最新技术突破和预计在决策制定中它们的使用将增加,我们提供了一项研究路线图,以支持联合人工智能语言模型推理任务,并确保决策与价值观相一致的伦理关注。
May, 2024
近期的人工智能的普适性进展凸显出引导人工智能系统走向个人和群体的目标、道德原则和价值观的重要性,这被广泛称为对齐。然而,人工智能和哲学领域对于人工智能和人类对齐的定义和范围尚未被明确界定,而且这个问题的长期互动和动态变化也基本被忽视。为了填补这些空白,我们对 2019 年至 2024 年 1 月间发表的 400 多篇论文进行了系统综述,涵盖了人机交互、自然语言处理、机器学习等多个领域。我们对人工智能与人类对齐进行了描述、定义和范围界定,并从以人为中心的视角提出了一个 “双向人工智能与人类对齐” 的概念框架来组织文献。该框架包括了将人工智能与人类对齐的传统研究,即确保人工智能系统产生由人类确定的预期结果,以及调整人类与人工智能对齐的概念,旨在帮助个人和社会在认知和行为上适应人工智能进展。此外,我们阐述了文献分析的关键发现,包括关于人类价值观、交互技术和评估的讨论。为了未来研究的发展,我们展望了未来方向的三个关键挑战,并提出了潜在的未来解决方案的例子。
Jun, 2024
本文探讨了大规模语言技术在人类与对话代理之间的应用,提出了几个步骤以确保人类价值观得到贯彻,并探索了如何通过对话规范来协调对话代理与人类之间的通信。
Sep, 2022
AI alignment aims to build AI systems in accordance with human intentions and values, addressing the risks of misaligned systems with superhuman capabilities through forward and backward alignment methodologies.
Oct, 2023
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI 系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
基于对话的人工智能协作可以在协作问题解决、创造性探索和社交支持方面起到革命性作用。本调查从传统的手工制作和信息状态方法到 AI 规划启发的方法,回顾了协同对话系统中对话管理范式的演变。然后,将焦点转向当代的数据驱动对话管理技术,这些技术旨在将深度学习在填充表格和开放领域环境中的成功经验转移到协作场景。本文还分析了一组将神经方法应用于协同对话管理的最新作品,突出了该领域的主要趋势。希望本调查为未来协同对话管理的发展提供基础背景,特别是在对话系统社区继续积极探索大型语言模型的潜力的情况下。
Jul, 2023
研究了对话决策问题的一个类别,其中 AI 助手与一个或多个人通过自然语言协作,帮助他们做出复杂的决策。为不同的任务建立了对话环境,并使用这些环境收集了人与人的对话作为基线,同时提出了模型在决策导向的对话中面临着一些挑战,并释放了环境作为未来建模工作的测试基地。
May, 2023