利用机器学习在不同语言新闻文章中寻找相似性的转写词研究

May, 2022

利用机器学习在不同语言新闻文章中寻找相似性的转写词研究

Exploiting Transliterated Words for Finding Similarity in Inter-Language News Articles using Machine Learning

Sameea Naeem, Dr. Arif ur Rahman, Syed Mujtaba Haider, Abdul Basit Mughal

TL;DR本文提出了一种基于自然语言处理、机器学习和英乌尔都语转换的方法，以找出英语和乌尔都语新闻文章之间的相似性，并解决了在低资源语言下找到相似新闻文章的难题。

Abstract

Finding similarities between two inter-language news articles is a challenging problem of natural language processing (NLP). It is difficult to find similar news articles in a different language other than the native language of user, there is a need for a →

natural language processing machine learning english-urdu transliteration similarity low-resource languages

发现论文，激发创造

使用自然语言处理技术的乌尔都语新闻文章推荐模型

提出一种可以预测用户兴趣的乌尔都语新闻推荐框架，使用了 NLP 技术的预处理和 TF-IDF 和余弦相似度计算，利用 BERT 语言模型相似性提高了系统推荐性能。当文章相似性超过 60％时，系统会向用户推荐相关新闻。

May, 2022

探究多语种机器翻译中的词汇共享在印度语言中的应用

本文研究了多语言机器翻译中的词汇共享和转写等策略对翻译性能的影响，并探讨了数据采样和词汇大小之间的平衡。研究发现，转写并不能显著提高翻译性能，而原始脚本训练的多语言机器翻译模型对于不同脚本的语言具有较强的泛化能力。

May, 2023

利用语言相似性进行机器翻译

本文提出了一种自动化生成和扩展字典和短语表的方法，利用大规模单语数据学习语言结构和小型双语数据映射语言空间之间的线性映射，从而实现翻译缺失的单词和短语，能达到英语和西班牙语之间近 90% 准确率，可用于扩展和完善任何语言对的字典和翻译表。

Sep, 2013

利用迁移学习改进波兰语到英语神经机器翻译：数据量和语言相似性的影响

本研究探讨了数据量和使用类似语言对于机器翻译任务中的迁移学习的影响，研究发现，在迁移学习中，拥有更多的数据通常会导致更好的性能，然而，相关语言在特定语言对的数据有限时也可以特别有效，最终通过使用 OPUS-100 数据集对 mBART 模型进行微调来证明结果。实验表明，相关语言和更多的数据的组合比单独使用两者能够更好的提高模型性能，同时还表明了相关语言在零样本和小样本时的重要性。

Jun, 2023

探索语言相似性和零样本学习用于德拉维多语言的多语种翻译

通过利用音译和语言相似性，本研究构建了一个单一编解码器神经机器翻译系统，用于 Dravidian-Dravidian 多语言翻译和零翻译；通过限制词汇表使用优化传输技术，该模型在训练语言方向的 50％上达到了与大型基于引导的模型相差 3 个 BLEU 的分数。

Aug, 2023

通过领域自适应技术利用语言相关性进行机器翻译

本文提出了一种新颖的方法使用基于 5-gram KenLM 语言模型的缩放相似性分数，尤其是对于相关语言，该方法使用 Kneser-ney 平滑技术从域内数据中过滤出域外数据，以提高机器翻译的翻译质量。此外，我们采用了其他域自适应技术，如多域、微调和迭代回译方法，以比较我们在 Hindi-Nepali 语言对上的新方法在 NMT 和 SMT 上的效果，我们的方法在多域方法上增加了约 2 个 BLEU 点，在微调 NMT 方面提高了约 3 个 BLEU 点，在迭代回译上提高了约 2 个 BLEU 点。

Mar, 2023

Wolfies 参加 SemEval-2022 任务 8：多语言新闻文章相似性特征提取管道的 Transformers

本文介绍了使用预训练嵌入模型计算余弦相似度，并建立不同相似度度量的管道进行特征提取，在此基础上，使用前馈神经网络进行训练以提高相似性测量结果的方法。

Aug, 2022

利用语言相似性进行零样本跨语言转移语言选择

研究使用语言相似性来选择最佳的迁移语言，从而提高在情感分析、命名实体识别和依赖解析等不同自然语言处理任务中的跨语言迁移性能。

Jan, 2023

利用语言相关性进行低网络资源语言模型适应：印度语言研究

本文针对印度语言中不足文本资源的问题，提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法，通过音译和数据增强等技术，将限制资源语言文本转化到具备足够语料的相关语言中间站，从而提高多语言模型的适用性。

Jun, 2021

跨语言新闻 - 跨语言文档相似性与事件追踪

本研究基于 Event Registry 系统，使用基于 Wikipedia 的不同语言交叉文档相似度计算方法，解决了多语言流的新闻推送跟踪，提出了一种链接不同语言文章聚集的方法，并对整个系统进行了充分评估。

Dec, 2015