Go AI 的对抗性鲁棒性能否得以保证？

Jun, 2024

Go AI 的对抗性鲁棒性能否得以保证？

Can Go AIs be adversarially robust?

Tom Tseng, Euan McLean, Kellin Pelrine, Tony T. Wang, Adam Gleave

TL;DR简单的防御策略无法阻止对超级人类级别的围棋 AI 的自适应攻击。

Abstract

Prior work found that superhuman Go AIs like KataGo can be defeated by simple adversarial strategies. In this paper, we study if simple defenses can improve KataGo's →

superhuman go ai adversarial strategies defenses worst-case performance adaptive attacks

发现论文，激发创造

对抗策略击败超级围棋 AI

我们通过对冻结的 KataGo 受害者进行对抗性玩家训练，攻击了最先进的 Go-playing AI 系统 KataGo。我们的攻击可以实现超过 99％的胜率，而 KataGo 没有进行树搜索时，当 KataGo 使用足够的搜索以超人能力获胜时，我们的攻击获得了超过 97％的胜率。

Nov, 2022

AlphaZero-like 代理是否具有抗对抗扰动的鲁棒性？

本研究针对神经网络棋类人工智能的对手状态攻击进行了探究，该方法可扩展至其他棋盘游戏；实验结果表明，加入 1-2 个无意义棋子即可使 AlphaGo Zero 等神经网络棋类 AI 产生错误决策。

Nov, 2022

对抗马尔可夫博弈：关于自适应基于决策的攻击与防御

通过理论和实证研究，我们解决自适应对手提出的挑战，并开发自适应防御策略，从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。

Dec, 2023

一种使用稳定扩散的防御对抗攻击的新方法

我们的研究论文提出了一种基于动态防御策略和稳定扩散的方法，该方法旨在在不使用对抗性示例的情况下进行 AI 系统的训练，以创建一个更广泛范围攻击下具有内在韧性的系统，从而提供一种更广泛且更强大的针对对抗性攻击的防御。

May, 2024

加强对抗性容错性评估的置信度

该研究提出了一种测试方法以识别弱攻击和防御评估，为了增强透明和信心，将攻击单元测试作为未来强度评估的重要组成部分。

Jun, 2022

对抗样本是否不可避免？

本文从理论研究角度分析识别器的易受攻击性，识别了对抗例子的的根本限制。通过实验探讨理论在现实世界的问题中的应用以及图片复杂性对分类器抗对抗性的限制。

Sep, 2018

面向对抗攻击具有抵抗能力的深度学习模型

通过稳健优化方法探究神经网络对抗攻击的鲁棒性，设计出对抗攻击和训练模型的可靠方法，提出对于一阶对手的安全保证，并得到针对广泛对抗攻击的高鲁棒性网络模型。

Jun, 2017

高风险可靠性的对抗训练

通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

May, 2022

我们可以依赖人工智能吗？

过去十年中，对抗攻击算法揭示了深度学习工具的不稳定性，这些算法引发了与人工智能中的安全性、可靠性和可解释性相关的问题，尤其是在高风险环境中。从实际角度来看，攻击和防御策略开发者之间发生了一场升级战。在更理论层面上，研究人员还研究了关于攻击的存在和可计算性的更大问题。在这篇文章中，我们对该主题进行了简要概述，重点关注对应用和计算数学领域的研究人员可能感兴趣的方面。

Aug, 2023

随机化很重要：如何抵御强大的对抗性攻击

本文采用博弈论视角研究分类器对抗攻击的鲁棒性，证明了在确定性情况下不存在一个能保证最优鲁棒性的纳什均衡点，并提出了采用随机化方法构建具有鲁棒性的分类器的算法，实验结果验证了该方法的有效性。

Feb, 2020