使用词性标注改进英文到锡兰语神经机器翻译

Feb, 2022

使用词性标注改进英文到锡兰语神经机器翻译

Improving English to Sinhala Neural Machine Translation using Part-of-Speech Tag

Ravinga Perera, Thilakshi Fonseka, Rashmini Naranpanawa, Uthayasanker Thayasivam

TL;DR利用词性标注和位置编码来提高基础的英语到僧伽罗语神经机器翻译模型的翻译能力。

Abstract

The performance of neural machine translation (NMT) depends significantly on the size of the available parallel corpus. Due to this fact, low resource language pairs demonstrate low translation performance compared to high resource language pairs. The translation quality further degrad

neural machine translation low resource language morphologically rich languages part of speech tags transformer input embedding

发现论文，激发创造

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

Sinhala-English 单词嵌入对齐：向低资源语言引入数据集和基准

利用可用的对齐技术，本研究试图对齐僧伽罗语和英语单词嵌入空间，并引入了僧伽罗语嵌入对齐的基准。此外，为了促进有监督的对齐，我们还引入了僧伽罗语 - 英语对齐数据集，作为我们针对词嵌入对齐的锚数据集。尽管与法语、德语或中文等高资源语言相比，我们的结果并不可比，但我们相信我们的工作为英语和僧伽罗语嵌入之间的更专门的对齐奠定了基础。

Nov, 2023

利用语言资源进行神经机器翻译的多任务学习

本研究表明，多任务学习是将语言学标注引入端到端神经 attention 模型的一个成功和简单的方法，可以对翻译质量产生改善，并且也可以提高词性标注器的性能。

Aug, 2017

公开可用的僧伽罗语自然语言处理工具与研究调查

本文对公开可用的信杭拉自然语言处理工具和研究进行了全面的文献综述，以帮助该领域的研究人员更好地利用同行的贡献。

Jun, 2019

低资源机器翻译的 FLoRes 评估数据集：尼泊尔语 - 英语和僧伽罗语 - 英语

本研究介绍了 FLoRes 评估数据集，并针对 Nepali-English 和 Sinhala-English 等低资源语言，以维基百科翻译句子为基础，展开全面评测各类联机翻译方法的表现，进而发现当前最先进的方法对于这一基准测试的表现相对较差，给低资源机器翻译的研究提出了挑战。

Feb, 2019

Amharic 词性标注的机器学习方法

提高阿姆哈拉语的词性标注性能，本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法，对比以往工作，明显的提高了词性标注性能。

Jan, 2020

Sinhala 句子嵌入：低资源语言的两层结构

本文研究多种单层和双层嵌入结构在 Sinhala 情感分析中的有效性，结果表明，基于单层词嵌入的模型的得分为 83.76％，而基于上下层的嵌入结构的最大 F1 得分为 88.04％，并比较欧几里得空间和双曲空间中嵌入的性能。

Oct, 2022

机器翻译中印度语言的低资源状态再探讨

本文提供并分析了一个用于印度语神经机器翻译系统的大规模多语言句子对齐语料库和强大基准的自动化框架，其中包括基线 NMT 系统，检索模块和用于公共网站的对齐模块，通过迭代增加语料库来改进系统。我们的工作还评估了设计选择，例如枢轴语言的选择和迭代式增量语料库增加的影响。与现有的印度语语料库相比，本工作不仅提供了自动化框架，还产生了一个相对较大的语料库。这个语料库使我们能够在公开的 WAT 评估基准和其他标准评估基准上获得明显改善的结果。

Aug, 2020

低资源语言的神经机器翻译

本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序，在低资源语言中使用神经机器翻译 (NMT) 模型，产生仅使用 7 万个训练数据令人满意的翻译结果。

Aug, 2017

词汇语义如何影响翻译？一项实证研究

本文研究了神经机器翻译系统在不同语言对之间的翻译表现，发现目标语言与英语越相似，翻译表现越好。另外，还探讨了在基于 Transformer 的模型中提供英语词汇的词性标记对翻译表现的影响。

Dec, 2021