文本与图像的多模态表示学习
本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合,涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面,旨在为相关社群未来的研究提供参考。
Nov, 2019
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
通过引入多个模式层到属性模型中,整合了图像内容的语义和隐藏层。利用 Word2Vec 方法量化词向量并通过词嵌入卷积神经网络进行评估,实验结果显示该方法可以将离散特征转化为连续特征,从而降低特征预处理的复杂性,并通过卷积神经网络的优秀特征分析特性改善图像特征评估模型的鲁棒性,目的是改进现有的图像特征识别方法并消除评估过程中的主观影响。模拟结果表明该创新方法是可行的,有效地增强了生成表示中的特征。
Jun, 2024
本文总结了一些具有里程碑意义的研究论文,直接或间接地构建了当今多模态自我监督学习的基础。该文章回顾了过去几年中用于每种模态的表示学习的发展情况,以及它们如何组合成多模态智能体。
Nov, 2022
提出了一种无监督多模态语言表示提取方法,利用卷积自编码器将单词级对齐的多模态序列映射到 2-D 矩阵中,证明其在情感分析和情绪识别领域可以达到接近最先进性能的结果。
Oct, 2021
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试中获得最先进的性能。
Jun, 2020
本文介绍了一种使用低秩张量完成多模态数据融合的新方法,并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。
May, 2018
通过利用 Web 和 Social Media 数据,本文提出一种利用多模态图像和文本嵌入的自监督学习方法,在不需要人工注释的情况下学习强大的特征,并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法,表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能,且在训练目标数据时优于最先进方法。最后,介绍了 InstaCities1M 数据集,并演示了如何利用该数据集进行语义多模态图像检索。
Jan, 2019
本综述论文全面介绍了深度学习多模态体系结构的演变和增强,以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务:包括最新的任务特定的深度学习方法,多模态预训练目标,以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。
Feb, 2023
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019