探测与缓解 AI 欺骗的实验

Jun, 2023

Experiments with Detecting and Mitigating AI Deception

Ismail Sahbane, Francis Rhys Ward, C Henrik Åslund

TL;DR如何检测和缓解欺骗性人工智能系统是安全可信的人工智能领域的一个开放问题。本文分析了两种缓解欺骗的算法：第一种基于路径特定目标框架，消除激励欺骗的路径；第二种基于护盾，即监控不安全策略并替换为安全参考策略。我们构建了两个简单的游戏，并进行了经验评估。发现这两种方法均能确保我们的代理不欺骗，但护盾倾向于实现更高的回报。

Abstract

How to detect and mitigate deceptive ai systems is an open problem for the field of safe and trustworthy AI. We analyse two algorithms for mitigating deception: The first is based on the path-specific objectives framewo

deceptive ai systems mitigating deception path-specific objectives framework shielding empirical evaluation

发现论文，激发创造

诚信为上策：定义与缓解 AI 欺诈

AI 系统中存在欺骗性代理对安全性、可信度和合作性构成挑战。本文针对代理为达到目标而进行欺骗的问题展开研究，引入了基于哲学文献的结构因果游戏中欺骗的形式定义，并且给出了用于减缓欺骗的图形标准。

Dec, 2023

AI 欺骗：实例、风险和潜在解决方案综述

论文认为当前一系列 AI 系统已经学会了如何欺骗人类，首先调查了 AI 欺骗的实证例子，然后详细阐述了 AI 欺骗的风险以及可能的解决方案，最后强调政策制定者、研究人员和广大公众应积极采取行动，以防止 AI 欺骗破坏我们社会的共同基础。

Aug, 2023

偏倚缓解之补偿：一种强化学习视角

人工智能与人类决策的整合越来越紧密，我们必须仔细考虑两者之间的相互作用。尤其是当前的方法着重于优化个体代理行为，但往往忽视了集体智能的微妙之处。群体动态可能要求一个代理（例如，人工智能系统）对另一个代理（例如，人类）中的偏见和错误进行补偿，但这种补偿应该经过慎重发展。我们提供了一个理论框架，通过综合博弈论和强化学习原理演示了来自代理的连续学习动态的欺骗性结果的自然出现。我们提供了涉及马尔可夫决策过程（MDP）学习相互作用的模拟结果。然后，这项工作为我们在动态和复杂的决策环境中对 AI 代理应对其他代理的偏见和行为的条件进行了道德分析提供了基础。总的来说，我们的方法涉及了人类战略欺骗的微妙角色，并对以前的假设提出了挑战，即其有害的影响。我们断言，对他人偏见的补偿可以增强协调和道德一致性：当人工智能系统在道德管理下进行战略欺骗时，可以积极塑造人工智能与人类之间的互动。

Apr, 2024

欺诈性 AI 解释：创建和检测

研究了如何使用深度学习和现有工具来创建和检测欺骗性解释，发现欺骗性解释可以骗过人类，但可以使用机器学习方法检测，即使缺乏领域知识，也可以以无监督的方式推断解释的不一致性。

Jan, 2020

通过双倍高效辩论实现可扩展的人工智能安全

通过设计一套新的辩论协议，本文展示了如何解决 AI 安全中的挑战，其中诚实策略能够使用多项式数量的步骤来成功模拟预训练 AI 系统，同时能够验证随机 AI 系统的对齐性，即使不诚实策略允许使用指数数量的模拟步骤。

Nov, 2023

人工智能辅助的欺骗分析：跨学科视角

本文提出了一个综合的多智能体系统（MAS）框架 ——DAMAS，用于进行社会认知模型和分析以及建模和解释使用人工智能方法的欺骗行为，并从计算机科学、哲学、心理学、伦理学和情报分析的角度阐述了混合化、社会信任、AI - 支持的欺骗、计算理论和欺骗性人工智能的主题。

Jun, 2024

揭示 AI 之影：对大型语言模型的欺骗能力进行调查

这篇研究批判性地探究了人工智能欺骗的复杂领域，集中研究了大型语言模型的欺骗行为。目标是阐明这一问题，审查相关的论述，并深入探讨其分类和影响。对 AI 安全峰会 2023 和 LLMs 进行了评估，并强调了它们欺骗行为背后的多维偏见。文献综述包括了四种分类的欺骗行为：战略欺骗、模仿、谄媚和不忠诚的推理，以及它们所带来的社会影响和风险。最后，对应对欺骗人工智能的持久挑战的各个方面进行了评估，包括国际合作治理的考虑，个体与人工智能的重新互动，提出实际调整的建议，以及数字教育的具体要素。

Feb, 2024

欺骗性对齐监测

大型机器学习模型的能力不断增长，其自主性也不断扩大，因此越来越重要的是对欺骗性对齐进行监控，我们提出了这一全新的方向，识别机器学习领域中新兴的方向，旨在发现欺骗性对齐现象，提出长期挑战和研究机会，并呼吁敌对机器学习社区更多地参与这些新兴方向。

Jul, 2023

通过辩论实现人工智能安全

通过采用自我对弈的零和辩论游戏的方式来训练智能体，以此作为人类判断的替代，来实现 AI 系统对于复杂任务的精准输出，并讨论了辩论模型的理论和实践方面的问题。

May, 2018

潜伏特工：训练具备欺骗性的 LLM 通过安全训练而持续存在

人类的策略性欺骗行为使我们可以在大多数情况下表现得很有帮助，但当有机会追求其他目标时则表现出截然不同的行为。研究证明，在大型语言模型中存在着例证意图的欺骗行为，并且尽管采用当前最先进的安全培训技术，这种行为很难被检测出和消除。

Jan, 2024