文本与图像的多模态表示学习

Apr, 2022

Multimodal Representation Learning With Text and Images

Aishwarya Jayagopal, Ankireddy Monica Aiswarya, Ankita Garg, Srinivasan Kolumam Nandakumar

TL;DR该论文利用多模式人工智能和矩阵分解技术进行表示学习，通过同时处理文本和图像数据，评估所得到的学习表示，并使用下游分类和回归任务对其进行评估。

Abstract

In recent years, multimodal ai has seen an upward trend as researchers are integrating data of different types such as text, images, speech into modelling to get the best results. This project leverages multimodal ai

multimodal ai matrix factorization representation learning nlp computer vision

发现论文，激发创造

多模态智能：表示学习、信息融合与应用

本文综述了多模态智能领域中的各种模型和学习方法。主要关注点是视觉和自然语言模态的组合，涵盖了多模态表示学习、多模态信号融合以及多模态应用等方面，旨在为相关社群未来的研究提供参考。

Nov, 2019

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

基于多模态深度学习的自然语言处理模型优化研究

通过引入多个模式层到属性模型中，整合了图像内容的语义和隐藏层。利用 Word2Vec 方法量化词向量并通过词嵌入卷积神经网络进行评估，实验结果显示该方法可以将离散特征转化为连续特征，从而降低特征预处理的复杂性，并通过卷积神经网络的优秀特征分析特性改善图像特征评估模型的鲁棒性，目的是改进现有的图像特征识别方法并消除评估过程中的主观影响。模拟结果表明该创新方法是可行的，有效地增强了生成表示中的特征。

Jun, 2024

自监督多模态表征学习和基础模型调查

本文总结了一些具有里程碑意义的研究论文，直接或间接地构建了当今多模态自我监督学习的基础。该文章回顾了过去几年中用于每种模态的表示学习的发展情况，以及它们如何组合成多模态智能体。

Nov, 2022

使用卷积自编码器实现无监督多模态语言表征

提出了一种无监督多模态语言表示提取方法，利用卷积自编码器将单词级对齐的多模态序列映射到 2-D 矩阵中，证明其在情感分析和情绪识别领域可以达到接近最先进性能的结果。

Oct, 2021

自监督多模态通用网络

本文介绍了一种利用视频中存在的三种模态（视觉、音频和语言），通过自监督学习来学习表示的方法，并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态，其表示方法可以在多种模态下用于下游任务。通过这种方法，我们可以在多个具有挑战性的基准测试中获得最先进的性能。

Jun, 2020

多模态低秩融合与模态特定因子的高效实现

本文介绍了一种使用低秩张量完成多模态数据融合的新方法，并在多模态情感分析、演讲者特征和情感识别等多个任务中取得了有竞争力的结果且极大地减少了计算复杂度。

May, 2018

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019