自动创建大量新的双语词典

Aug, 2022

Automatically Creating a Large Number of New Bilingual Dictionaries

Khang Nhut Lam, Feras Al Tarouti, Jugal Kalita

TL;DR本文提出了一种自动创建低资源语言，特别是资源贫乏和濒危语言的大量新双语词典的方法，使用一个单一的输入双语词典生成目标语言的单词翻译，依赖于 Wordnets 和机器翻译器（MT）。

Abstract

This paper proposes approaches to automatically create a large number of new bilingual dictionaries for low-resource languages, especially resource-poor and →

bilingual dictionaries low-resource languages endangered languages wordnets machine translator

发现论文，激发创造

创建反向双语词典

本文提出从已有的包含英语的双语词典中创建新的反向双语词典的算法，利用英语 Wordnet 中单词 - 概念对之间的相似性来生成反向词典条目，并且只要其中的一种语言具有 Wordnet 类型的词汇学本体论，这些算法就适用于任何双语词典。

Aug, 2022

为濒危语言创建词汇资源

本文旨在探讨为濒危语言生成词汇资源的方法，通过使用公共词网和机器翻译器构建双语词典和多语言词库，奠定了一个基础，尤其适用于缺乏资源的语言。

Aug, 2022

利用双语词典进行低资源半监督神经机器翻译

本研究提出了一种基于双语词典的数据增强技术，使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量，我们的方法在性能上表现出可观的改进。

Apr, 2020

基于双语词典的极低资源语言 NMT

本文介绍一种使用双语词典和神经机器翻译模型来改善极低资源语言翻译的方法，扩展到多语言系统，表现出零 - shot 特性，并分析词典质量、数据集大小、语言家族等因素对翻译质量的影响，结果表明，与基线相比，使用双语词典的方法在多个低资源测试语言上具有明显优势。

Jun, 2022

自动构建 Wordnet 同义词集

通过使用公开的 Wordnets、机器翻译和单语种双语字典，我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集，这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言，是自动构建完整 Wordnets 的第一步。

Aug, 2022

使用双语词典进行神经机器翻译的持续学习

该研究提出了一个评估框架，旨在评估神经机器翻译对持续学习新短语的能力，对不同的单词表示进行了单次学习方法的集成，并表明，必须解决这两个挑战才能成功使用双语词典。通过解决这两个挑战，我们能够将翻译新的、罕见的词汇和短语的能力从 30% 提高到 70% 以上，正确的词干甚至达到了 90% 以上。

Feb, 2021

基于双语词典的神经机器翻译，无需使用平行语料

本文提出了一项基于双语词典而非平行句子的机器翻译新任务，采用 “锚定训练”(AT) 方法对其进行处理，实验证明该方法较其他基线方法表现更佳，尤其对于难以自我学习的语言对而言，其表现接近于受监督训练的神经机器翻译，并能发挥双语词典和大规模单语语料库的潜能。

Jul, 2020

利用语言相似性进行机器翻译

本文提出了一种自动化生成和扩展字典和短语表的方法，利用大规模单语数据学习语言结构和小型双语数据映射语言空间之间的线性映射，从而实现翻译缺失的单词和短语，能达到英语和西班牙语之间近 90% 准确率，可用于扩展和完善任何语言对的字典和翻译表。

Sep, 2013

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

多语言到英语机器翻译工具、数据和预训练模型

本文提出三种工具：MTData、NLCodec 和 RTG，设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型，支持语言种类很多，且模型容易下载和使用。

Apr, 2021