使用 Transformer 进行多模态学习的综述
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
本文通过详细调查从 2017 至 2022 年间提出的 Transformer 模型,分析了其在自然语言处理、计算机视觉、多模态、音频和语音处理以及信号处理等领域中的应用及其对应的任务,并提供了一种分类法,以期为进一步研究及其未来的应用提供参考。
Jun, 2023
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
Jul, 2023
该研究介绍了一种监督式多模态双向 Transformer 模型,该模型融合了文本编码器和图像编码器的信息,并在各种多模态分类基准任务上获得了最先进的性能。
Sep, 2019
多模态机器学习作为一个充满潜力的多学科领域,在不断发展和完善,其普遍的分类包括:表示、翻译、对齐、融合和协同学习。该研究旨在通过共性的分类方式,综合总结目前该领域的研究进展,以期为未来的研究指明方向。
May, 2017
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
本文探究了多模态语言模型的研究,集成了多种数据类型,如图像、文本、语言、音频和其他异构数据。通过合并各种模态,多模态模型能够更全面地理解和处理多样化的数据,本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。
Nov, 2023
通过提出一种基于 Transformer 的新型融合方法 TransModality,本文在多个多模态数据集上验证,得出其在多模态情感分析任务中有着比其他融合方法更好的性能。
Sep, 2020
多模态机器翻译是近年来引起学术界和工业界广泛关注的研究领域,本文通过综述先前的 99 项研究工作,全面总结了主要模型、数据集和评估指标,分析了各种因素对模型性能的影响,并讨论了未来该领域的研究方向。与之前限制在早期多模态机器翻译的调查不同,我们的调查从不同角度深入总结了这些新兴类型,以便为研究人员提供对目前研究状况的更好理解。
May, 2024