感知得分：您的模型感知哪些数据模态？

Oct, 2021

感知得分：您的模型感知哪些数据模态？

Perceptual Score: What Data Modalities Does Your Model Perceive?

Itai Gat, Idan Schwartz, Alexander Schwing

TL;DR本文提出了感知分数的概念，通过该指标对多模态数据集中的各种输入特征进行评估，发现最新的视觉问答或视觉对话多模态模型相较于它们的先驱越来越少重视视觉数据，这趋势引起了担忧，需要对此展开讨论并提出解决思路。

Abstract

machine learning advances in the last decade have relied significantly on large-scale datasets that continue to grow in size. Increasingly, those datasets also contain different data modalities. However, large multi-modal datasets are hard to annotate, and annotations may contain biase

machine learning multi-modal datasets perceptual score visual question-answering model biases

发现论文，激发创造

阅读，观察还是听取？解决多模态数据集所需的元素

通过利用少量人工注释，我们提出了一种两步方法来分析多模态数据集，为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法，并发现大多数问题可以用单一模态回答，而且没有对任何特定模态存在实质性偏见。此外，我们发现超过 70％的问题可以用几种不同的单模态策略来解决，例如通过观看视频或听音频，突出了 TVQA 中多模态整合的有限性。我们利用我们的注释并分析 MERLOT Reserve，发现它在处理基于图像的问题、文本和音频以及听觉说话人识别方面存在困难。根据我们的观察，我们引入了一个需要多个模态的新的测试集，观察到模型性能显著下降。我们的方法为多模态数据集提供了有价值的见解，并强调了开发更健壮模型的需求。

Jul, 2023

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

使用图像、文本和参数数据的多模态机器学习进行车辆评级预测

该研究提出了一种基于多模式学习的汽车评级预测方法，通过同时学习汽车参数规格、文本描述和图像来预测五个汽车评级分数。比较多模式和单模式模型的表现，发现多模式模型的解释能力比单模式模型高 4%-12%。

May, 2023

SHAPE：一种统一方法评估个体模态的贡献和合作

本文主要介绍了一种基于 SHAPLEY 值的 PErceptual（SHAPE）得分，该得分可以测量单个模态的边际贡献和跨模态合作程度以及如何在不同任务的不同多模态数据集上系统地评估不同的融合方法，最终结果表明对于一些任务，在不同模态互补的情况下，多模态模型仍倾向于仅使用主导模态并忽略跨模态合作，而在不同模态必须挑战任务的情况下，模型则可以学习利用跨模态合作。

Apr, 2022

多模态机器学习中的模态影响

本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响，并针对不同分类任务的数据集和模型，提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于理解多模态学习中每个模态的作用，并为该领域的未来发展提供了有价值的见解。

Jun, 2023

带迭代注意力的通用感知器

本文介绍了 Perceiver 模型，它利用了不对关系进行假设的 Transformer，同时还能在处理非常大的输入时进行规模扩展，通过迭代地将输入压缩到一个紧凑的潜在瓶颈中，并且在图像、点云、音频、视频和视频 + 音频等多个模态的分类任务中达到了与最佳模型相当的性能。

Mar, 2021

关于模态偏差的识别和减少

本文研究了在多模态分类系统中影响模型性能的模态偏差问题，通过构建两个基于 Out-of-Distribution 协议的数据集和提出一种自适应的 plug-and-play 损失函数方法，在彩色数字识别、视频动作识别和视觉问答三个任务上实现了明显的性能改进，证明了该方法在减少模态偏差问题方面的优越性。

Feb, 2022

深度多模态数据分析的调查：协作，竞争和融合

本文综述多模型数据分析的现有状况和未来方向，着重介绍了基于深度神经网络的多特征融合方法，这些方法的关键组成部分是协作，对抗训练和特征融合。

Jun, 2020

多模态分类分析社交媒体

本研究使用池化层和辅助学习任务进行多模态社交媒体数据分类，具有良好的鲁棒性和高准确性，并与传统融合方法相比有着显著的优势。

Aug, 2017

多模态数据集中单词和主题的视觉具体性量化

本研究旨在探讨如何自动计算多模态训练数据中的单词与主题的视觉具体性以此来预测机器学习算法学习文本与视觉关系能力的高低。研究发现具体概念确实比抽象概念更容易学习，且不同数据集中视觉具体性与算法表现之间的关系是有所不同的，建议在多模态研究中使用视觉具体性评分以便更好地探索概念。

Apr, 2018