基于预训练嵌入的多语言和多模态主题建模

COLINGNov, 2022

基于预训练嵌入的多语言和多模态主题建模

Multilingual and Multimodal Topic Modelling with Pretrained Embeddings

Elaine Zosa, Lidia Pivovarova

TL;DR本文介绍了一种新颖的多模态多语言（M3L）神经话题模型 M3L-Contrast，用于可比较数据，将多种语言和图像映射到共享的话题空间中，该模型利用预训练的文本和图像嵌入，抽象不同语言和模态之间的复杂性，并产生对齐的语言特定话题。同时，该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当，且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时，我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。

Abstract

This paper presents M3L-Contrast -- a novel multimodal multilingual (M3L) neural topic model for →

multimodal multilingual neural topic model comparable data aligned embeddings

发现论文，激发创造

自然语言处理的多语言多模态嵌入

我们提出了一种新的判别模型，它从多语言和多模态数据中学习嵌入，因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估，以及对神经机器翻译进行评估，我们发现附加的多语言信号可以改进 ISR 和 STS 任务，并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表，从而产生强大的改进。

Feb, 2017

M3P：通过多任务、多语言、多模态的预训练学习通用表示

M3P 是一个多任务多语言多模态预训练模型，通过多任务预训练将多语言预训练和多模态预训练结合到一个统一的框架中。该模型的目标是学习通用表示法，可以将出现在不同模态或不同语言中的对象映射到一个公共的语义空间。此外，该论文还提出了 Multimodal Code-switched Training（MCT）的训练策略，该策略通过代码切换将单语预训练和多模态预训练相结合，以明确地鼓励图像和非英语语言之间的细粒度对齐。在跨两个基准数据集的多语言图像检索任务上进行了实验，包括 MSCOCO 和 Multi30K。M3P 在英语上可以获得可比较的结果，在非英语语言上则获得了最新的最佳结果。

Jun, 2020

用于多通道视频 - 语言检索的预训练对比模型的快速适应

探索多模态检索中利用预训练对比模型和文本符号融合信息的最佳方式，并发现用离散文本符号表示视频的方法取得最佳效果。

Jun, 2022

神经多模态主题建模：全面评估

本文提出了首次系统全面评估多模式主题建模的方法，并提出了两个新的主题建模解决方案和两个新的评估指标。通过对数据集的评估，我们发现我们的模型都能生成连贯且多样化的主题。然而，一个方法优于另一个方法的程度取决于评估指标和数据集的组合，这表明未来需要进一步探索混合解决方案。值得注意的是，我们简明的人工评估与我们提出的评估指标结果一致，这不仅强化了评估指标的可信度，也突出了其在引导未来多模式主题建模研究中的潜力。

Mar, 2024

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

m3P: 走向多模多语翻译与多模提示

通过引入视觉语境作为通用的语言无关表示来促进多语言翻译的方法，该方法利用多模态提示来指导多模态多语言神经机器翻译，在低资源和大规模多语言场景下改善了翻译质量。

Mar, 2024

BGE M3 - 嵌入：通过自我知识蒸馏实现多语言、多功能、多粒度的文本嵌入

本文介绍了一种新的嵌入模型 M3-Embedding，其以其多语、多功能和多粒度的通用性而脱颖而出。它支持 100 多种工作语言，展示了在多语言和跨语言检索任务上的最新性能，同时能够同时执行三种常见检索功能：密集检索、多向量检索和稀疏检索，为现实世界的信息检索应用提供了统一的模型基础。该模型能够处理不同粒度的输入，从短句到最长 8192 个标记的长文档。我们提出了一种新颖的自知识蒸馏方法，通过集成来自不同检索功能的相关性得分作为教师信号来增强训练质量，并优化了批处理策略，以确保嵌入的区分性。据我们所知，M3-Embedding 是第一个实现如此强大通用性的嵌入模型。该模型和代码将公开在指定的 URL 链接中。

Feb, 2024

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

MCSE: 句子嵌入的多模态对比学习

本文提出了一种基于多模态对比目标的句子嵌入学习方法，利用同时包含视觉和文本信息的数据提高了语义相似性任务的性能，并通过分析文本嵌入空间的性质解释了本方法提高性能的原因。

Apr, 2022

从不同语料库中学习多语言话题

本文提出了一种只需字典作为训练数据的多语言主题模型，并在部分和完全不可比的语料库中有效地学习到一致的多语言主题，从而实现跨语言任务。

Jun, 2018