通过辩论实现人工智能安全
通过设计一套新的辩论协议,本文展示了如何解决 AI 安全中的挑战,其中诚实策略能够使用多项式数量的步骤来成功模拟预训练 AI 系统,同时能够验证随机 AI 系统的对齐性,即使不诚实策略允许使用指数数量的模拟步骤。
Nov, 2023
辩论通过两个不可靠专家的辩论,帮助非专家更可靠地辨别真相,相较于仅由一个专家提供答案的顾问咨询方法在提高了效率的同时,能够显著提升评判的准确性,为监督日益强大但潜在不可靠的 AI 系统提供了有希望的方法。
Nov, 2023
研究人员提出在 AI 解决方案无法得到准确判断的问题中,可通过两个 AI 系统之间的辩论来增强人类法官的问题解决能力,并介绍了一个可建模此类辩论的数学框架,并将辩论设计的质量测量为最有力回答的准确性。
Nov, 2019
考虑使用辩论作为 AI 安全问题的重复博弈,研究在该情境下当玩家是 AI 或人类,且拥有超级 AI 计算能力时的高效后悔最小化问题,进一步阐述了达到相关均衡的策略序列的条件。
Dec, 2023
提出了一种基于辩论动态的知识图谱事实检查新方法,利用强化学习代理抽取路径来论证事实真假,并通过二元分类器判断真假;该方法可解释用户决策,允许用户参与推理和评估辩论,提高各类基于知识图谱的人工智能应用的接受度、效率、稳健性和公正性。
Jan, 2020
研究表明,当涉及到风险元素和评估人类和 AI 代理能力的探索利用过程时,人工智能和人类在小组决策方面具有互补技能。本文面向一组带有缺陷的 AI 代理人,向人类团队提交一系列智力问题,以评估团队成员和可用 AI 代理人的相对专业知识,评估不同行动的风险并通过达成共识来最大化整体回报,并提出了人工智能 - 人类团队决策的模型。研究验证了在不确定情况下的人工智能团队和人类行为预测中的前景理论、影响动态和贝叶斯学习的社会认知构建的价值。
Jan, 2022
我们提出了一种解释方法,并通过一个真实的任务和真实的人类用户的评估来衡量它的有效性。这项工作旨在为人机协作中的自然语言处理提供设计指导。
Oct, 2018
通过辩论动态理论提出了一种自动推理知识图谱的新方法,以三段式分类为例,该方法基于增强学习代理和二进制分类器解释和预测关于知识图谱中观点真实性的辩论证据,从而可用于知识图谱的推理和链接预测,实验表明该方法优于其他基线模型。
Jan, 2020
论文认为当前一系列 AI 系统已经学会了如何欺骗人类,首先调查了 AI 欺骗的实证例子,然后详细阐述了 AI 欺骗的风险以及可能的解决方案,最后强调政策制定者、研究人员和广大公众应积极采取行动,以防止 AI 欺骗破坏我们社会的共同基础。
Aug, 2023