面向不对齐文本的多语言主题模型

May, 2012

面向不对齐文本的多语言主题模型

Multilingual Topic Models for Unaligned Text

Jordan Boyd-Graber, David Blei

TL;DR该研究开发了多语言主题模型（MuTo）来分析两种语言的文档，其使用随机 EM 来发现匹配语言和多语言潜在主题，因此能够发现真实世界中的共享主题，而无需仔细策划平行语料库，并允许广泛应用主题模型规范的应用于更广泛的语料库类别。

Abstract

We develop the multilingual topic model for unaligned text (MuTo), a probabilistic model of text that is designed to analyze corpora compo

multilingual topic model corpora stochastic em latent topics

发现论文，激发创造

从不同语料库中学习多语言话题

本文提出了一种只需字典作为训练数据的多语言主题模型，并在部分和完全不可比的语料库中有效地学习到一致的多语言主题，从而实现跨语言任务。

Jun, 2018

InfoCTM: 跨语言主题建模的互信息最大化视角

本文提出了一种基于互信息的跨语言主题建模方法，通过采用主题对齐和词汇链接技术，解决了其他方法中主题重复和低覆盖字典的问题，并在英文、中文和日文数据集上得到了良好的结果。

Apr, 2023

无监督机器翻译的多语言视角

提出了一个概率框架，用于多语言神经机器翻译，特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项，自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明，在大多数方向上，我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上，BLEU 得分比最先进的无监督模型高，并且在罗马尼亚语 - 英语方向上，我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。

Feb, 2020

零样本学习的跨语言上下文主题模型

本文介绍了一种零射击跨语言主题模型，利用迁移学习来处理多个语言的数据集，以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题，并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性，结果表明所转移的主题是连贯且稳定的，具有潜在的未来研究方向。

Apr, 2020

基于预训练嵌入的多语言和多模态主题建模

本文介绍了一种新颖的多模态多语言（M3L）神经话题模型 M3L-Contrast，用于可比较数据，将多种语言和图像映射到共享的话题空间中，该模型利用预训练的文本和图像嵌入，抽象不同语言和模态之间的复杂性，并产生对齐的语言特定话题。同时，该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当，且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时，我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。

Nov, 2022

从双语对齐到多语对齐：无监督平行文本挖掘

本文提出一种跨语言句子表示的学习方法，介绍了双轴转移的训练策略，并通过实验表明这种策略可以应用于获取具有多语言对齐的句子表示。

Apr, 2021

逆向双语主题模型用于从非平行数据中提取词库

本文提出了两种新的双语主题模型，以更好地捕捉每个单词的语义信息，同时区分嘈杂的种子词典中的多个翻译，解决了应用主题模型到非平行数据的两个挑战：难以建模词语关系和嘈杂的种子词典。此外，我们还提出了有效的词语相似性评估措施和翻译选择概率。实验结果表明了所提出的模型的实用性和有效性。

Dec, 2016

圣经对当代话题的启示：低资源多语言话题模型的评估

介绍了一种评估多语言主题模型质量的方法，该方法考虑到外部资源不足的情况，并提出了一种适应性模型来提高指标的准确性和可靠性。

Apr, 2018

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

多语言词性标注：两种无监督方法

通过多语言学习，并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术，我们证明了在无监督词性标注中应用多语言学习的有效性，且在可用语言数量增加时，性能稳定提升。

Jan, 2014