面向不对齐文本的多语言主题模型
本文提出了一种基于互信息的跨语言主题建模方法,通过采用主题对齐和词汇链接技术,解决了其他方法中主题重复和低覆盖字典的问题,并在英文、中文和日文数据集上得到了良好的结果。
Apr, 2023
提出了一个概率框架,用于多语言神经机器翻译,特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项,自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明,在大多数方向上,我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上,BLEU 得分比最先进的无监督模型高,并且在罗马尼亚语 - 英语方向上,我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。
Feb, 2020
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
本文介绍了一种新颖的多模态多语言(M3L)神经话题模型 M3L-Contrast,用于可比较数据,将多种语言和图像映射到共享的话题空间中,该模型利用预训练的文本和图像嵌入,抽象不同语言和模态之间的复杂性,并产生对齐的语言特定话题。同时,该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当,且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时,我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。
Nov, 2022
本文提出了两种新的双语主题模型,以更好地捕捉每个单词的语义信息,同时区分嘈杂的种子词典中的多个翻译,解决了应用主题模型到非平行数据的两个挑战:难以建模词语关系和嘈杂的种子词典。此外,我们还提出了有效的词语相似性评估措施和翻译选择概率。实验结果表明了所提出的模型的实用性和有效性。
Dec, 2016
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
通过多语言学习,并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术,我们证明了在无监督词性标注中应用多语言学习的有效性,且在可用语言数量增加时,性能稳定提升。
Jan, 2014