MultiViz: 多模型可视化与理解
该研究提出了一种交互式的可视化分析系统,M2Lens,用于可视化和解释基于深度学习的多模态情感分析模型,提供了全局、子集和局部水平上的模态间互动的解释,从语言、声学和视觉模式探索模型行为。
Jul, 2021
通过提供一个分析框架和新的度量标准,我们研究了多模态视觉社区的解释。通过实验,我们调查了不同模态之间的一致性和特殊性,模态内的演化规则,以及优化多模态模型时使用的协作逻辑,并揭示了一些重要发现,这些发现有助于重新思考流行的多模态视觉融合策略的合理性和必要性,从而为未来设计一个可信赖和通用的多模态融合模型奠定了基础。
Aug, 2023
本研究提出了一种多模态方法来解释深层模型,同时训练文本生成和注意权重可视化,研究结果表明该方法可以产生更好的文本解释模型,并能更好地定位支持分类决策的证据,从而明显优于单模态方法。
Feb, 2018
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明,不同研究领域提出的方法可以改善 9/15 数据集的最先进性能。MultiBench 处理了跨模态一般化,复杂性和健壮性的问题,对于未来研究具有重要的挑战性,包括可扩展性到大规模多模态数据集和对现实缺陷的健壮性。
Jul, 2021
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在 RGB 图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了 ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023
本研究提出了 UNIMO-3 模型,旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题,并能同时学习多模态的在层交互和跨层交互,实验结果显示该模型达到了最新工作的最好结果。
May, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
该论文提出了一种可解释的深度学习模型 - MTXNet,着重于图像中的文本的多模态解释生成,并使用包含视觉信息和多种文本解释的新颖数据集 TextVQA-X 进行训练和评估,显示出该多模态解释与人类解释一致,有助于为模型的决策提供有用的见解。该模型解释效果的得分在 CIDEr 方面优于单模态模型至多 7%,在 IoU 方面优于单模态模型至多 2%。
Apr, 2021