欺诈性 AI 解释：创建和检测

Jan, 2020

Deceptive AI Explanations: Creation and Detection

Johannes Schneider, Christian Meske, Michalis Vlachos

TL;DR研究了如何使用深度学习和现有工具来创建和检测欺骗性解释，发现欺骗性解释可以骗过人类，但可以使用机器学习方法检测，即使缺乏领域知识，也可以以无监督的方式推断解释的不一致性。

Abstract

artificial intelligence (AI) comes with great opportunities but can also pose significant risks. Automatically generated explanations for decisions can increase transparency and foster trust, especially for syste

artificial intelligence explanations deep learning deceptive explanations detecting deception

发现论文，激发创造

人类预测和机器学习模型解释中的欺骗检测案例研究

该研究利用欺骗检测作为实验平台，研究了如何利用机器学习模型的解释和预测来提高人类表现，并保持人类主体性。结果表明，机器预测的解释可以促进人类表现的提高，而这种提高与机器高性能的明确建议具有相似的效果。

Nov, 2018

预防虚假新闻检测中过度信任的机器学习解释

研究表明通过引入可解释的 AI 助手来解释新闻评论平台中的假新闻，有助于改善用户对算法透明度的理解和信任程度，并提高他们的准确性。

Jul, 2020

解开人工智能错误之谜：探索大型语言模型的人工和机器解释的有效性

本研究通过与最新方法（集成渐变、保守 LRP 和 ChatGPT）进行对比实证调查，收集和分析了 156 个人生成的文本和基于显著性的解释，并发现与机器显著性图相比，人工显著性图尤其在解释人工智能结果时更具说明性，但其性能与对人工智能模型和解释的信任负相关，揭示了人工智能解释中的困境：当有助于理解错误的人工智能预测时，会降低任务表现。

Apr, 2024

模型准确性和解释透明度如何影响用户信任

研究表明，在机器学习中，准确度比可解释性更重要，添加解释可能会损害用户信任，同时高度真实的解释不能欺骗用户的信任，用户的信任感与其实际表现不符。

Jul, 2019

TED: 教授人工智能解释其决策

本文介绍了一种名为 TED（Teaching Explanations for Decisions）的实用框架，它提供了能够匹配消费者心智模型的有意义的解释，通过两个例子的演示，表明这种方法的广泛性和有效性，同时无损准确性。

Nov, 2018

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

AI 解释的解释

该论文关注机器学习中可解释性问题，侧重于简化模型的构建及不同形式的解释与说明，并探讨了机器学习在处理该问题时的广义视角。