阅读，观察还是听取？解决多模态数据集所需的元素

Jul, 2023

阅读，观察还是听取？解决多模态数据集所需的元素

Read, Look or Listen? What's Needed for Solving a Multimodal Dataset

Netta Madvil, Yonatan Bitton, Roy Schwartz

TL;DR通过利用少量人工注释，我们提出了一种两步方法来分析多模态数据集，为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法，并发现大多数问题可以用单一模态回答，而且没有对任何特定模态存在实质性偏见。此外，我们发现超过 70％的问题可以用几种不同的单模态策略来解决，例如通过观看视频或听音频，突出了 TVQA 中多模态整合的有限性。我们利用我们的注释并分析 MERLOT Reserve，发现它在处理基于图像的问题、文本和音频以及听觉说话人识别方面存在困难。根据我们的观察，我们引入了一个需要多个模态的新的测试集，观察到模型性能显著下降。我们的方法为多模态数据集提供了有价值的见解，并强调了开发更健壮模型的需求。

Abstract

The prevalence of large-scale multimodal datasets presents unique challenges in assessing dataset quality. We propose a two-step method to

multimodal datasets dataset quality two-step method modalities tvqa

发现论文，激发创造

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

感知得分：您的模型感知哪些数据模态？

本文提出了感知分数的概念，通过该指标对多模态数据集中的各种输入特征进行评估，发现最新的视觉问答或视觉对话多模态模型相较于它们的先驱越来越少重视视觉数据，这趋势引起了担忧，需要对此展开讨论并提出解决思路。

Oct, 2021

多模态学习中的鲁棒性

本文提出了一个多模态鲁棒性框架，以系统分析常见的多模态表示学习方法，并针对其中的鲁棒性缺陷提出了两种干预技术，能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时，通过在可能存在的额外模态上更好地利用这些干预技术，本文的算法在 AudioSet 20K 上取得了 44.2mAP 的优异表现。

Apr, 2023

多模式讲座演示文稿数据集：理解教育幻灯片中的多模式性

介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集 ——Multimodal Lecture Presentations 数据集，并且提出了两个任务 —— 解释和说明教育内容，其中前者实现语音识别，后者实现视觉内容合成。介绍了一个名为 PolyViLT 的多模态变形器，该模型采用多个实例学习方法比现有方法更有效，同时指出了在多模态教育表现方面的挑战和机遇。

Aug, 2022

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

ManyModalQA：多模态输入下的语式消歧和问答

本文提出了一个新的多模态问答挑战 ManyModalQA，在这里代理必须考虑三个不同的模态：文本、图像和表格。我们收集数据的方式是爬取维基百科，并利用众包收集问题 - 答案对。我们的问题是有歧义的，因为包含答案的模态不仅仅基于问题就易于确定。我们构建一个模态选择器（或消歧器）网络，通过分析该模型，我们研究了问题中指示模态的哪些单词。接下来，我们构建了一个简单的基线 ManyModalQA 模型，该模型基于模态选择器的预测，触发相应的预训练单模态 QA 模型。我们提供一个新的多模态评估集，只提供一个微调集，在鼓励低资源泛化新任务时，期望现有数据集和方法能被转移。尽管基于基线模型的表现与人类表现之间存在显著差距，但我们希望这一挑战能鼓励研究多模态 QA 模型的端到端消歧和迁移学习。

Jan, 2020

多模态分类分析社交媒体

本研究使用池化层和辅助学习任务进行多模态社交媒体数据分类，具有良好的鲁棒性和高准确性，并与传统融合方法相比有着显著的优势。

Aug, 2017

MPMQA：产品手册上的多模态问答

通过构建大规模的带有人工注释的 PM209 数据集，本研究提出了一个多模态产品手册问答（MPMQA）任务，其要求模型处理多模态内容并提供多模态答案，并进一步提出了一种统一模型，可以同时执行这两个子任务，并实现与多个任务特定模型相当的性能。

Apr, 2023

探索使用真实数据集的多模式机器翻译中视觉模态的必要性

近期在多模式机器翻译（MMT）领域的研究表明，视觉模态在翻译效果方面要么可有可无，要么只提供了边缘化优势。然而，这些结论大多来自于对有限的双语句子 - 图像配对数据集（如 Multi30k）的实验结果分析，而这类数据集中，一个双语平行句对的内容必须由手工标注的图像很好地表达，这与真实的翻译场景不同。在这项工作中，我们遵循了唐等人（2022 年）提出的通用多模式机器翻译框架。这种方法使我们能够通过利用真实世界的翻译数据集，深入研究视觉模态对翻译效果的影响。通过全面的探索性任务，我们发现视觉模态对大多数真实翻译数据集具有优势。值得注意的是，翻译性能主要取决于文本和视觉内容之间的对齐和一致性。此外，我们的结果表明，视觉信息在多模式翻译中发挥了补充作用，可以被替代。

Apr, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021