多模态解释:证明决策并指向证据
本文介绍深度模型在视觉决策问题中表现良好的同时,其透明度也导致了可解释系统的兴起,并提出了两个带注释的大规模数据集,通过视觉和文本形式保证决策的分类,同时提出了一种多模式方法,定量证明使用文本解释的训练方法不仅可以获得更好的文本解释模型,还可以更好地定位支持其决策的证据。
Nov, 2017
该论文提出了一种可解释的深度学习模型 - MTXNet,着重于图像中的文本的多模态解释生成,并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估,显示出该多模态解释与人类解释一致,有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7%,在 IoU 方面优于单模态模型至多 2%。
Apr, 2021
本研究提出了一种名为个性化展示的新任务,以更丰富的信息形式生成推荐解释,通过对来自 Google Local 的大规模数据集的构建和收集,运用对比学习的方法构建了一个个性化多模态框架,利用多种输入模态生成多样化和可视化的解释,该框架在多种评估指标上比之前的方法有更多元化和表现力。
Jun, 2022
本文提出了一种新颖的方法,开发了一个高性能的 VQA 系统,能够通过集成的文本和视觉解释阐述其答案,并捕捉到深度神经网络推理的重要方面,从而比竞争方法具有更好的自动化和人类评估指标。
Sep, 2018
本文旨在提高可信的 AI 系统的有效性和可解释性,定义一个新类型的多模态解释来解释决策,并提出一种新的解释生成方法,可以显式地模拟词语和感兴趣的区域之间的配对关系,同时开发了一个包含 1040830 个多模态解释的新数据集以及进行了广泛的分析,以研究不同设置下解释的有效性和推理性能。
Mar, 2022
我们提出了一个框架,使用大型多模态模型全面解释生成模型中的每个潜在因子,并量化评估我们生成解释的不确定性,从而学习不同生成模型对解释的解缠效果,最后讨论最先进的大型多模态模型的解释能力和局限性。
Feb, 2024
本研究提出了一种新方法,将非语言模态转化为文本描述,并使用大规模语言模型进行情感预测,从而提高情感分析的可解释性。在两个情感分析任务上的实验结果表明,该方法在维持或甚至提高了情感分析的效率的同时,使解释更为直接。
May, 2023
探索多模态模型在联合图像和文本生成任务中的表现,并发现单一模型类型不能通用地在所有任务、数据集和微调数据大小上表现最佳,加深了对从图像和文本生成超越图像字幕的新型通用骨干方法的需求。
May, 2022
提出了一种新的深度学习视觉识别模型,可根据可见物体的特征进行分类,并生成解释说明预测标签的原因,该模型使用了一种基于采样和强化学习的新型损失函数,能够生成与现有描述方法不同的描述结果。
Mar, 2016
本文介绍了一种名为 MultiViz 的方法,通过四个阶段的解构和分析实现了对多模态机器学习模型的内部机制进行可视化和理解,帮助用户进行模型预测仿真、特征的可解释性赋值、误差分析以及漏洞检测等任务。
Jun, 2022