从不同语料库中学习多语言话题

COLINGJun, 2018

Learning Multilingual Topics from Incomparable Corpus

Shudong Hao, Michael J. Paul

TL;DR本文提出了一种只需字典作为训练数据的多语言主题模型，并在部分和完全不可比的语料库中有效地学习到一致的多语言主题，从而实现跨语言任务。

Abstract

multilingual topic models enable crosslingual tasks by extracting consistent topics from multilingual corpora. Most models require parallel or comparable training corpora, which limits their ability to generalize. In this paper, we first demystify the →

multilingual topic models training data knowledge transfer dictionary resources cross-lingual tasks

发现论文，激发创造

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020

逆向双语主题模型用于从非平行数据中提取词库

本文提出了两种新的双语主题模型，以更好地捕捉每个单词的语义信息，同时区分嘈杂的种子词典中的多个翻译，解决了应用主题模型到非平行数据的两个挑战：难以建模词语关系和嘈杂的种子词典。此外，我们还提出了有效的词语相似性评估措施和翻译选择概率。实验结果表明了所提出的模型的实用性和有效性。

Dec, 2016

圣经对当代话题的启示：低资源多语言话题模型的评估

介绍了一种评估多语言主题模型质量的方法，该方法考虑到外部资源不足的情况，并提出了一种适应性模型来提高指标的准确性和可靠性。

Apr, 2018

面向不对齐文本的多语言主题模型

该研究开发了多语言主题模型（MuTo）来分析两种语言的文档，其使用随机 EM 来发现匹配语言和多语言潜在主题，因此能够发现真实世界中的共享主题，而无需仔细策划平行语料库，并允许广泛应用主题模型规范的应用于更广泛的语料库类别。

May, 2012

使用双语词典进行标注低资源语言的模型转移

本研究提出了一种新颖的基于跨语言词向量的神经网络模型，通过高覆盖的双语词典训练，利用跨语言模型转移的方法，针对低资源语言的注释预测问题提出了解决方案，并通过多种主动学习启发式方法，提升了该方法的性能。

May, 2017

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

无平行语料的零样本跨语言迁移

通过使用预训练模型，我们提出了一种零样本跨语言转移的新方法，它能够在低资源语言上实现任务感知的双语信息对齐，并利用未标记数据进行自我训练，从而实现多种任务上的最新技术提升，无需并行语料库或翻译模型。

Oct, 2023

基于预训练嵌入的多语言和多模态主题建模

本文介绍了一种新颖的多模态多语言（M3L）神经话题模型 M3L-Contrast，用于可比较数据，将多种语言和图像映射到共享的话题空间中，该模型利用预训练的文本和图像嵌入，抽象不同语言和模态之间的复杂性，并产生对齐的语言特定话题。同时，该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当，且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时，我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。

Nov, 2022

面向多语言大语言模型的平行语料利用方法

通过对平行语料库进行优化，可以提高多语言大型语言模型的性能，研究结果表明，过滤嘈杂的翻译是有效利用平行语料库的关键。

Jun, 2024

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022