通过辩论实现人工智能安全

May, 2018

AI safety via debate

Geoffrey Irving, Paul Christiano, Dario Amodei

TL;DR通过采用自我对弈的零和辩论游戏的方式来训练智能体，以此作为人类判断的替代，来实现 AI 系统对于复杂任务的精准输出，并讨论了辩论模型的理论和实践方面的问题。

Abstract

To make ai systems broadly useful for challenging real-world tasks, we need them to learn complex human goals and preferences. One approach to specifying complex goals asks humans to judge during training which a

ai systems human goals self play debate game mnist

发现论文，激发创造

通过双倍高效辩论实现可扩展的人工智能安全

通过设计一套新的辩论协议，本文展示了如何解决 AI 安全中的挑战，其中诚实策略能够使用多项式数量的步骤来成功模拟预训练 AI 系统，同时能够验证随机 AI 系统的对齐性，即使不诚实策略允许使用指数数量的模拟步骤。

Nov, 2023

辩论有助于监督不可靠的专家

辩论通过两个不可靠专家的辩论，帮助非专家更可靠地辨别真相，相较于仅由一个专家提供答案的顾问咨询方法在提高了效率的同时，能够显著提升评判的准确性，为监督日益强大但潜在不可靠的 AI 系统提供了有希望的方法。

Nov, 2023

人工智能辩论中真相何时受青睐？

研究人员提出在 AI 解决方案无法得到准确判断的问题中，可通过两个 AI 系统之间的辩论来增强人类法官的问题解决能力，并介绍了一个可建模此类辩论的数学框架，并将辩论设计的质量测量为最有力回答的准确性。

Nov, 2019

通过遗憾最小化进行 AI 安全的辩论

考虑使用辩论作为 AI 安全问题的重复博弈，研究在该情境下当玩家是 AI 或人类，且拥有超级 AI 计算能力时的高效后悔最小化问题，进一步阐述了达到相关均衡的策略序列的条件。

Dec, 2023

多代理辩论对抗对抗攻击

通过多代理辩论和嵌入式聚类，我们研究了现代语言模型在对抗性攻击和多代理环境下的表现，并发现多代理辩论可以减少模型的有害性，并改善对不同类型攻击主题的抵抗能力。

Jan, 2024

基于知识图谱的人类可理解事实核查的争论动态

提出了一种基于辩论动态的知识图谱事实检查新方法，利用强化学习代理抽取路径来论证事实真假，并通过二元分类器判断真假；该方法可解释用户决策，允许用户参与推理和评估辩论，提高各类基于知识图谱的人工智能应用的接受度、效率、稳健性和公正性。

Jan, 2020

模拟人工智能团队决策

研究表明，当涉及到风险元素和评估人类和 AI 代理能力的探索利用过程时，人工智能和人类在小组决策方面具有互补技能。本文面向一组带有缺陷的 AI 代理人，向人类团队提交一系列智力问题，以评估团队成员和可用 AI 代理人的相对专业知识，评估不同行动的风险并通过达成共识来最大化整体回报，并提出了人工智能 - 人类团队决策的模型。研究验证了在不确定情况下的人工智能团队和人类行为预测中的前景理论、影响动态和贝叶斯学习的社会认知构建的价值。

Jan, 2022

人工智能能为我做些什么：评估机器学习解释在合作游戏中的作用

我们提出了一种解释方法，并通过一个真实的任务和真实的人类用户的评估来衡量它的有效性。这项工作旨在为人机协作中的自然语言处理提供设计指导。

Oct, 2018

辩论动态下的知识图谱推理

通过辩论动态理论提出了一种自动推理知识图谱的新方法，以三段式分类为例，该方法基于增强学习代理和二进制分类器解释和预测关于知识图谱中观点真实性的辩论证据，从而可用于知识图谱的推理和链接预测，实验表明该方法优于其他基线模型。

Jan, 2020

AI 欺骗：实例、风险和潜在解决方案综述

论文认为当前一系列 AI 系统已经学会了如何欺骗人类，首先调查了 AI 欺骗的实证例子，然后详细阐述了 AI 欺骗的风险以及可能的解决方案，最后强调政策制定者、研究人员和广大公众应积极采取行动，以防止 AI 欺骗破坏我们社会的共同基础。

Aug, 2023