多模式讲座演示文稿数据集：理解教育幻灯片中的多模式性

Aug, 2022

多模式讲座演示文稿数据集：理解教育幻灯片中的多模式性

Multimodal Lecture Presentations Dataset: Understanding Multimodality in Educational Slides

Dong Won Lee, Chaitanya Ahuja, Paul Pu Liang, Sanika Natu, Louis-Philippe Morency

TL;DR介绍了一个为了测试机器学习模型在多模态教育内容理解方面表现的新的数据集 ——Multimodal Lecture Presentations 数据集，并且提出了两个任务 —— 解释和说明教育内容，其中前者实现语音识别，后者实现视觉内容合成。介绍了一个名为 PolyViLT 的多模态变形器，该模型采用多个实例学习方法比现有方法更有效，同时指出了在多模态教育表现方面的挑战和机遇。

Abstract

Lecture slide presentations, a sequence of pages that contain text and figures accompanied by speech, are constructed and presented carefully in order to optimally transfer knowledge to students. Previous studies in multimedia and psychology attribute the effectiveness of lecture presentations to their multimodal nature. As a step toward developing AI to aid

multimodal lecture presentations ai agents educational content polyvilt multimodal understanding

发现论文，激发创造

M$^3$AV: 多模式、多文体和多用途的音视频学术讲座数据集

通过提供高质量的人工注释，本文提出了一个全新的多模态、多类型和多用途的音频 - 视频学术讲座数据集，旨在支持多种音视频识别和理解任务，从而展示了 M^3AV 数据集的多样性和挑战性。

Mar, 2024

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

阅读，观察还是听取？解决多模态数据集所需的元素

通过利用少量人工注释，我们提出了一种两步方法来分析多模态数据集，为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法，并发现大多数问题可以用单一模态回答，而且没有对任何特定模态存在实质性偏见。此外，我们发现超过 70％的问题可以用几种不同的单模态策略来解决，例如通过观看视频或听音频，突出了 TVQA 中多模态整合的有限性。我们利用我们的注释并分析 MERLOT Reserve，发现它在处理基于图像的问题、文本和音频以及听觉说话人识别方面存在困难。根据我们的观察，我们引入了一个需要多个模态的新的测试集，观察到模型性能显著下降。我们的方法为多模态数据集提供了有价值的见解，并强调了开发更健壮模型的需求。

Jul, 2023

体育领域的语言和多模态模型：数据集和应用调查

综述了自 2020 年以来推动这些创新的数据集和应用程序，对数据集进行了概述和分类，包括基于语言、多模态和可转换的数据集，强调了数据集对改善体育迷体验、支持战术分析和医学诊断等各种应用的贡献，并讨论了数据集开发的挑战和未来方向。该综述为希望在体育领域利用自然语言处理和多模态模型的研究人员和实践者提供了基础资源，提供了关于当前趋势和未来机会的洞察。

Jun, 2024

LLMs 满足多模态生成和编辑的综述

多模态生成技术的调查，介绍了不同领域中的重要进展，包括图像、视频、3D 和音频，研究了方法和数据集，还提出了使用现有生成模型进行人机交互的工具增强型多模态代理，同时探讨了人工智能安全问题和新兴应用及未来前景。

May, 2024

多模式协同学习：挑战、数据集应用、最新进展与未来方向

该研究对于多模态联合学习进行了全面系统的综述，介绍了多种技术和应用，讨论了存在的挑战和未来的研究方向。

Jul, 2021

知识增强的多模态学习调查

该研究调查了多模态学习中的视觉语言学习及其与知识图谱的结合，提出了一种基于知识图谱的视觉语言学习模型以解决一般性知识方面的问题。

Nov, 2022

多模态大型语言模型的数据中心视角调查

本综述以数据为中心的视角全面回顾多模态大型语言模型的文献，探索了在多模态数据准备、预训练和适应阶段的方法，分析了数据集的评估方法和评估多模态大型语言模型的基准。此外，本综述还概述了未来的研究方向，以便为研究人员提供对多模态大型语言模型的数据驱动方面的详细理解，推动该领域的进一步探索和创新。

May, 2024

多语言多模态：数据集、技术、挑战和机遇的分类调查

此论文旨在研究多模态多语言的统一模型，探讨其任务，数据集及方法类别，分析模态与语言之间的相互作用以及模型的优势和劣势，总结该领域的高级趋势并提出挑战和未来研究方向。

Oct, 2022