人工道德代理的最低可解释性要求

Jul, 2023

人工道德代理的最低可解释性要求

Minimum Levels of Interpretability for Artificial Moral Agents

Avish Vijayaraghavan, Cosmin Badea

TL;DR本文概述了人工智能可解释性的一个快速发展子领域 - 基于道德决策的可解释性模型，并介绍了最小可解释性水平 (Minimum Level of Interpretability, MLI) 的概念，以及为不同类型的代理建议 MLI 的安全部署方式。

Abstract

As artificial intelligence (AI) models continue to scale up, they are becoming more capable and integrated into various forms of decision-making systems. For models involved in moral decision-making, also known a

artificial intelligence moral decision-making interpretability minimum level of interpretability real-world deployment

发现论文，激发创造

人工智能模型语义可解释性

本研究从广阔的角度观察模型可解释性，超越了机器学习的范畴，涵盖了分布语义学和模糊逻辑等不同的人工智能领域。我们根据模型的性质和它们引入可解释性方面的方法进行分类，并分析每种方法如何影响最终用户。同时指出还需要解决的问题，以提供更以人为本的解释性解决方案。

Jul, 2019

机器学习在食品加工、农业和卫生应用中的可解释性与可访问性

本文回顾了在全球问题背景下，针对农业、食品加工和医疗健康等领域的机器学习可解释性和可访问性方面所做的工作，涵盖了科学和数学解释，统计解释和部分语义解释等多个方面

Nov, 2022

打造可理解的人工智能的挑战

本文旨在探讨人工智能在关键任务中的应用，提出了增强人工智能可解释性的重要性，并总结了当前构建可解释模型及说明方法的研究进展和关键方向。

Mar, 2018

多模态自动可解释性代理

这篇论文介绍了 MAIA，一种多模态自动解释性代理。MAIA 是一个使用神经模型自动化神经模型理解任务的系统，如特征解释和故障模式发现。它通过提供一系列工具来对其他模型的子组件进行迭代实验，从而对其行为进行解释。这些工具包括人工解释性研究人员常用的工具：用于合成和编辑输入、计算最大激活样本、以及总结和描述实验结果。MAIA 提出的解释性实验将这些工具组合起来描述和解释系统行为。我们评估了 MAIA 在计算机视觉模型中的应用。首先，我们描述了 MAIA 在学习到的图像表示的特征（神经元级别）中的描述能力。在多个经过训练的模型和一个包含真实描述的人工生成视觉神经元数据集中，MAIA 生成了与由专家人工实验者生成的描述相当的结果。然后，我们展示了 MAIA 在两个附加的可解释性任务中的应用：降低对虚假特征的敏感性和自动识别可能被错误分类的输入。

Apr, 2024

可解释人工智能（XAI）综述：面向医疗 XAI

这篇论文概述了解释机器学习算法决策的不同方法，并将它们应用到医学研究中，以提高医生对这些算法的信任度。

Jul, 2019

学习和解释代理之间交互的智能协议

本文探讨了人类与机器学习系统的交互，并提出了一个通信协议，使得机器学习决策支持系统能够实现人机两方面的可理解性。在该通信协议中，符合一定兼容性条件的智能体之间进行交互，定义了弱 / 强两种双向可理解性，使得人类和机器学习系统之间实现了智能信息的双向交流。

Jan, 2023

设计可解释的机器学习系统以增强可信的医疗人工智能：对过去十年的系统性回顾和提出的稳健框架

AI 医疗技术对健康医疗产生重大影响，本文回顾了在医疗领域中可解释机器学习（IML）和可解释人工智能（XAI）的过程和挑战，着重关注质量控制，并针对实验结果阐明了健康医疗中稳健解释性的重要性，为创建可沟通的医生 - 人工智能工具提供了见解。

Nov, 2023

使人工智能可理解：哲学基础

人类和人工智能是否能共享概念并进行交流？《使人工智能变得可理解》展示了意义形而上学的哲学研究如何回答这些问题，Cappelen 和 Dever 利用哲学中的外在主义传统构建了人工智能和人类相互理解的模型，从而改进了哲学传统，给出了有关理论和实践的重要答案，为实现可解释的人工智能迈出了重要的第一步。

Jun, 2024

可解释的人工智能：理解、可视化和解释深度学习模型

基于深度学习的解释性可视化方法在人工智能领域日益被重视，本文总结了目前解释深度学习模型的最新发展，并提出两种解释预测的方法，并将这些方法用于三个分类任务中进行评估。

Aug, 2017

AI 安全的机理解释性研究 -- 综述

理解人工智能系统的内部工作对于确保价值对齐和安全至关重要。本综述通过逆向工程神经网络学习的计算机机制和表示，将其转化为人类可理解的算法和概念，从而提供一个细致的，因果性的理解。我们建立了基本概念，如神经激活中编码的知识特征以及有关其表示和计算的假设。我们调查了因果分解模型行为的方法论，并评估了机制解释对人工智能安全性的相关性。我们研究了可扩展性、自动化和全面解释方面的挑战。我们主张明确概念、确立标准，并扩展处理复杂模型和行为以及拓展到视觉和强化学习等领域的技术。机制解释有助于防止人工智能系统变得更强大和不可理解时的灾难性结果。

Apr, 2024