可解释人工智能的漏洞:超越解释马蜂窝的问题
该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述,并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI(可解释人工智能)不安全因素的列表,并概述了 Adversarial XAI(AdvXAI)的新兴研究方向。
Jun, 2023
机器学习模型的不透明性威胁到其可解释性,可解释人工智能(XAI)技术通过提供解释 ML 模型内部决策过程的框架和方法来解决这一挑战,同时维护隐私的难题需要在理解 ML 决策和保护隐私之间找到平衡点。
Jun, 2024
阐释可解释的人工智能(XAI)技术应用于复杂模型的机器学习系统中,以增强其透明度与验证,从而取得用户的信任。然而,XAI 在部署上存在局限性,因此透明度和严格验证更适合在获取人工智能系统信任时使用。
Jan, 2023
通过介绍 X-hacking 的概念,本文展示了如何使用自动化的机器学习管道来搜索出产生期望解释并保持优越预测性能的 “可辩护” 模型,并将解释和准确性之间的权衡形式化为一个多目标优化问题。在熟悉的真实世界数据集上经验性地说明了 X-hacking 的可行性和严重性。最后,提出了可能的检测和预防方法,并讨论了 XAI 研究的可信度和可复制性的伦理意义。
Jan, 2024
该研究演示了可解释人工智能的多种方法,并与信用违约预测等任务进行了比较,提出了定量解释性的有意义见解,为开发负责任或以人为中心的 AI 系统提供方向和未来研究方向,有助于在高风险应用中采用 AI。
Jan, 2021
人工智能在人类生活的高风险领域的的应用愈加普及,XAI 应运而生,但其面临的 “不一致问题” 可能会导致潜在的危险后果,因此有必要采取缓解措施。本文提供了一些调适不一致解释的方法,分析了不同的攻击方式以及行为同调调整在社会上潜在危险造成的影响。
Jun, 2023
通过定制化解释并根据反馈不断完善,提出了一种适用于音乐表演的可解释人工智能框架,强调了背景和受众在解释需求开发中的重要性,为提升广泛艺术应用和音乐表演中人工智能系统的透明度和可解释性提供了一个有前景的方向。
Sep, 2023
本论文以自动驾驶汽车为研究对象,研究了四种常见的可解释人工智能方法,即决策树、文本、程序和图示。研究表明,参与者倾向于使用语言解释,但通过决策树解释更能客观地理解汽车的决策过程,并且结果显示,计算机科学经验和观察汽车成功或失败的情况可以影响解释的感知和有用性,因此本研究提出,设计 XAI 系统必须考虑用户的特定需求和情境因素。
Jan, 2023