MultiViz: 多模型可视化与理解

ICLRJun, 2022

MultiViz: Towards Visualizing and Understanding Multimodal Models

Paul Pu Liang, Yiwei Lyu, Gunjan Chhablani, Nihal Jain, Zihao Deng...

TL;DR本文介绍了一种名为 MultiViz 的方法，通过四个阶段的解构和分析实现了对多模态机器学习模型的内部机制进行可视化和理解，帮助用户进行模型预测仿真、特征的可解释性赋值、误差分析以及漏洞检测等任务。

Abstract

The promise of multimodal models for real-world applications has inspired research in visualizing and understanding their internal mechanics with the end goal of empowering stakeholders to visualize model behavior, perform model debugging, and promote trust in →

multimodal models interpretability visualization machine learning model debugging

发现论文，激发创造

M2Lens：情感分析多模型的可视化与解释

该研究提出了一种交互式的可视化分析系统，M2Lens，用于可视化和解释基于深度学习的多模态情感分析模型，提供了全局、子集和局部水平上的模态间互动的解释，从语言、声学和视觉模式探索模型行为。

Jul, 2021

多模态视觉融合的解读

通过提供一个分析框架和新的度量标准，我们研究了多模态视觉社区的解释。通过实验，我们调查了不同模态之间的一致性和特殊性，模态内的演化规则，以及优化多模态模型时使用的协作逻辑，并揭示了一些重要发现，这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性，从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。

Aug, 2023

知识增强的多模态学习调查

该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合，提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。

Nov, 2022

多模态解释：证明决策并指向证据

本研究提出了一种多模态方法来解释深层模型，同时训练文本生成和注意权重可视化，研究结果表明该方法可以产生更好的文本解释模型，并能更好地定位支持分类决策的证据，从而明显优于单模态方法。

Feb, 2018

MultiBench: 多模态表示学习的多尺度基准

MultiBench 是一个系统性和统一化的基准测试，跨越 15 个数据集，10 种模态，20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程，简化和标准化数据加载，实验设置和模型评估。随着大量的实践证明，不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化，复杂性和健壮性的问题，对于未来研究具有重要的挑战性，包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。

Jul, 2021

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

构建大型多模态模型理解任意视觉提示

该研究介绍了一种新颖的多模态模型，可以解码任意视觉提示，通过在 RGB 图像上直接叠加视觉标记的方式，实现了对特定区域的理解，在区域理解任务上取得了最先进的性能，并提出了 ViP-Bench，一个综合评估模型在理解多个维度上的视觉提示能力的基准，为未来的研究提供了可能。

Dec, 2023

UNIMO-3：多粒度视觉语言交互表示学习

本研究提出了 UNIMO-3 模型，旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题，并能同时学习多模态的在层交互和跨层交互，实验结果显示该模型达到了最新工作的最好结果。

May, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

初探：通过视觉和文本解释实现可解释的 TextVQA 模型

该论文提出了一种可解释的深度学习模型 - MTXNet，着重于图像中的文本的多模态解释生成，并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估，显示出该多模态解释与人类解释一致，有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7％，在 IoU 方面优于单模态模型至多 2％。

Apr, 2021