从不同语料库中学习多语言话题
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
本文提出了两种新的双语主题模型,以更好地捕捉每个单词的语义信息,同时区分嘈杂的种子词典中的多个翻译,解决了应用主题模型到非平行数据的两个挑战:难以建模词语关系和嘈杂的种子词典。此外,我们还提出了有效的词语相似性评估措施和翻译选择概率。实验结果表明了所提出的模型的实用性和有效性。
Dec, 2016
该研究开发了多语言主题模型(MuTo)来分析两种语言的文档,其使用随机 EM 来发现匹配语言和多语言潜在主题,因此能够发现真实世界中的共享主题,而无需仔细策划平行语料库,并允许广泛应用主题模型规范的应用于更广泛的语料库类别。
May, 2012
本研究提出了一种新颖的基于跨语言词向量的神经网络模型,通过高覆盖的双语词典训练,利用跨语言模型转移的方法,针对低资源语言的注释预测问题提出了解决方案,并通过多种主动学习启发式方法,提升了该方法的性能。
May, 2017
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
Oct, 2023
本文介绍了一种新颖的多模态多语言(M3L)神经话题模型 M3L-Contrast,用于可比较数据,将多种语言和图像映射到共享的话题空间中,该模型利用预训练的文本和图像嵌入,抽象不同语言和模态之间的复杂性,并产生对齐的语言特定话题。同时,该模型还可以推断图像中语义概念的文本表示。我们证明了我们的模型在预测可比较的多语言数据的话题分布方面与零 - shot 模型相当,且在预测可比较的文本和图像的话题分布方面比零 - shot 模型表现更好。同时,我们还展示了我们的模型在未对齐嵌入上的表现几乎与在对齐嵌入上的表现一样好。
Nov, 2022
本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022