利用机器学习在不同语言新闻文章中寻找相似性的转写词研究
提出一种可以预测用户兴趣的乌尔都语新闻推荐框架,使用了 NLP 技术的预处理和 TF-IDF 和余弦相似度计算,利用 BERT 语言模型相似性提高了系统推荐性能。当文章相似性超过 60%时,系统会向用户推荐相关新闻。
May, 2022
本文研究了多语言机器翻译中的词汇共享和转写等策略对翻译性能的影响,并探讨了数据采样和词汇大小之间的平衡。研究发现,转写并不能显著提高翻译性能,而原始脚本训练的多语言机器翻译模型对于不同脚本的语言具有较强的泛化能力。
May, 2023
本文提出了一种自动化生成和扩展字典和短语表的方法,利用大规模单语数据学习语言结构和小型双语数据映射语言空间之间的线性映射,从而实现翻译缺失的单词和短语,能达到英语和西班牙语之间近 90% 准确率,可用于扩展和完善任何语言对的字典和翻译表。
Sep, 2013
本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响,研究发现,在迁移学习中,拥有更多的数据通常会导致更好的性能,然而,相关语言在特定语言对的数据有限时也可以特别有效,最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明,相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能,同时还表明了相关语言在零样本和小样本时的重要性。
Jun, 2023
通过利用音译和语言相似性,本研究构建了一个单一编解码器神经机器翻译系统,用于 Dravidian-Dravidian 多语言翻译和零翻译;通过限制词汇表使用优化传输技术,该模型在训练语言方向的 50%上达到了与大型基于引导的模型相差 3 个 BLEU 的分数。
Aug, 2023
本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数,尤其是对于相关语言,该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据,以提高机器翻译的翻译质量。 此外,我们采用了其他域自适应技术,如多域、微调和迭代回译方法,以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果,我们的方法在多域方法上增加了约 2 个 BLEU 点,在微调 NMT 方面提高了约 3 个 BLEU 点,在迭代回译上提高了约 2 个 BLEU 点。
Mar, 2023
本文介绍了使用预训练嵌入模型计算余弦相似度,并建立不同相似度度量的管道进行特征提取,在此基础上,使用前馈神经网络进行训练以提高相似性测量结果的方法。
Aug, 2022
本文针对印度语言中不足文本资源的问题,提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法,通过音译和数据增强等技术,将限制资源语言文本转化到具备足够语料的相关语言中间站,从而提高多语言模型的适用性。
Jun, 2021
本研究基于 Event Registry 系统,使用基于 Wikipedia 的不同语言交叉文档相似度计算方法,解决了多语言流的新闻推送跟踪,提出了一种链接不同语言文章聚集的方法,并对整个系统进行了充分评估。
Dec, 2015