多模式是什么？

MMMar, 2021

What is Multimodality?

Letitia Parcalabescu, Nils Trost, Anette Frank

TL;DR本论文讲述了多模态机器学习领域的发展，提出了当前使用的多模式定义过时，不适用于机器学习时代，并提出一种基于任务相对定义的新的多模态定义，重点关注与给定机器学习任务相关的表示和信息。通过我们的新的多模态定义，旨在为多模态研究提供缺失的基础，这是语言基础和迈向自然语言理解的重要组成部分。

Abstract

The last years have shown rapid developments in the field of multimodal machine learning, combining e.g., vision, text or speech. In this position paper we explain how the field uses outdated definitions of multimodality that prove unfit for the machine learning era. We propose a new t

multimodal machine learning definitions task-relative definition representations nlu

发现论文，激发创造

多模态机器学习：概述与分类

多模态机器学习作为一个充满潜力的多学科领域，在不断发展和完善，其普遍的分类包括：表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式，综合总结目前该领域的研究进展，以期为未来的研究指明方向。

May, 2017

多模态机器学习的基础和趋势：原理、挑战和开放性问题

本文旨在探讨多模态机器学习的计算与理论基础，定义了三个关键原则和六个核心技术挑战，并提出多个未来研究的开放性问题。

Sep, 2022

多模式学习理论

研究多模态学习算法的泛化性质，发现与单一模态学习相比，多模态学习可以达到更好的泛化界限，最多可以提高到 O (√n) 倍，其中 n 代表样本大小。

Sep, 2023

多模态机器学习中的模态影响

本研究旨在探讨每种模态对 Multimodal Machine Learning 模型的影响，并针对不同分类任务的数据集和模型，提出了一种确定每种模态对 Multimodal Machine Learning 模型的影响的方法。研究结果对于理解多模态学习中每个模态的作用，并为该领域的未来发展提供了有价值的见解。

Jun, 2023

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

多模态机器翻译调查：任务、方法与挑战

多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域，本文通过综述先前的 99 项研究工作，全面总结了主要模型、数据集和评估指标，分析了各种因素对模型性能的影响，并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同，我们的调查从不同角度深入总结了这些新兴类型，以便为研究人员提供对目前研究状况的更好理解。

May, 2024

多模态深度学习

这篇论文概述了多模态方法中的最新技术和框架，并重点介绍了 Deep Learning、模型框架、特征表示学习以及生成艺术等关键点。

Jan, 2023

多语言多模态：数据集、技术、挑战和机遇的分类调查

此论文旨在研究多模态多语言的统一模型，探讨其任务，数据集及方法类别，分析模态与语言之间的相互作用以及模型的优势和劣势，总结该领域的高级趋势并提出挑战和未来研究方向。

Oct, 2022