多语言多模态表征学习的桥式相关神经网络

ACLOct, 2015

多语言多模态表征学习的桥式相关神经网络

Bridge Correlational Neural Networks for Multilingual Multimodal Representation Learning

Janarthanan Rajendran, Mitesh M. Khapra, Sarath Chandar, Balaraman Ravindran

TL;DR提出了一种用于多视图学习的通用模型，通过一个中间视图的并行数据，实现了多个视图之间的共同表示，并在多语言文本分类和多模式检索任务中取得了最先进的结果。

Abstract

Recently there has been a lot of interest in learning common representations for multiple views of data. Typically, such common representations are learned using a parallel corpus between the two views (say, 1M images and their English captions). In this work, we address a real-world scenario where no direct →

common representation multiview learning parallel data transfer learning multimodal retrieval

发现论文，激发创造

学习多语言多模态表示的图像枢转

本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型，其目的是提高多语言版本的图像搜索和理解，在图像描述排名及语义文本相似度方面实现了最先进的性能。

Jul, 2017

通过桥接神经网络进行任务驱动的公共表示学习

本文介绍了一种基于深度学习的新型方法 —— 桥接神经网络（BNN），用于针对特定任务挖掘两个给定数据源之间的潜在关系。该方法采用两个卷积神经网络将两个数据源投影到特征空间中，学习特定任务所需的所需的共同表示。训练目标是介绍人工负样本的能力，使得小批量训练的抗性等价于最大化两个数据源的总相关性，并通过理论分析进行了验证。在配对、典型相关分析、迁移学习和重构等任务上的实验表明，BNN 具有最先进的性能，可能为共同表示学习方面带来新的见解。

Jun, 2019

多模态图像描述翻译中的基准

本文提供了一种使用视觉空间中的多模态支点改善图像描述的统计机器翻译方法。通过在一个用目标语言描述的图像数据库中执行图像检索，并使用最相似图像的描述进行跨语言重新排序，达到优化的效果。本方法不依赖于大量域内平行数据的可用性，而仅依赖于大量单语言字幕图像数据集的可用性，以及用于计算图像相似性的最先进的卷积神经网络。我们的实验评估显示，与强基线相比，我们的方法提高了 1 个 BLEU 分数。

Jan, 2016

跨语言视觉预训练用于多模式机器翻译

本文结合视觉和语言的跨语言预训练方法，使用三重并行视觉和语言语料库进行预训练，并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。

Jan, 2021

组合式分布式语义的多语言模型

通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术，学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面，还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上，我们的模型都能胜过之前的最佳成果，并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。

Apr, 2014

WenLan：大规模多模态预训练桥接视觉和语言

本文介绍了作者团队领导的 “文兰” 项目的主要研究方向，即通过两个塔的 BriVL 预训练模型和跨模态对比学习框架的先进算法，隐式地建模跨模态关联，从而更成功地实现大规模多模态预训练。同时，他们还建立了一个大规模的中文多源图像文本语料库，称为 RUC-CAS-WenLan，用于 BriVL 模型的预训练。实验结果表明，预训练的 BriVL 模型在各种下游任务中的性能优于 UNITER 和 OpenAI CLIP。

Mar, 2021

跨模态检索任务的多语言词嵌入对齐

提出了一种新的方法来学习多模态多语言嵌入，用于匹配两种语言中图像及其相关标题，结合两个现有的目标函数，在模型中调整现有语言之间的词嵌入对齐，证明该方法实现了更好的泛化，在文本 - 图像和图像 - 文本检索任务中，以及标题 - 标题相似性任务中取得了最先进的性能，使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。

Oct, 2019

借助多视角语言表示桥接语言类型学和多语机器翻译

将来自语言数据库和多语言机器翻译等任务的稀疏语言向量相结合，使用奇异向量典型相关分析方法进行研究，发现这两种方法的关联性可嵌入语言类型学和语言谱系学，实现了对多语种机器翻译的优化，而且无需大规模的多语种编排，便于新语种的测量。

Apr, 2020

跨视角语言建模：朝向统一的跨语言跨模态预训练

本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架，通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据（即图像字幕对）和多语言数据（即平行句子对）作为同一对象的两个不同视角，通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明，CCLM 显着优于先前的最新技术，在绝对平均改进方面超过 10％，是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。

Jun, 2022

通过相关最大化和最小化实现多模态理解

使用 Multimodal Understanding Through Correlation Maximization and Minimization（MUCMM）框架，该框架可以轻松地嵌入到任何预训练网络中，学习模态数据的常见和个体表示，根据提出的方法，通过可视化分析过程给出了 MUCMM 学习结构化潜在表示的解释。

May, 2023