自动创建大量新的双语词典
本文提出从已有的包含英语的双语词典中创建新的反向双语词典的算法,利用英语 Wordnet 中单词 - 概念对之间的相似性来生成反向词典条目,并且只要其中的一种语言具有 Wordnet 类型的词汇学本体论,这些算法就适用于任何双语词典。
Aug, 2022
本研究提出了一种基于双语词典的数据增强技术,使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量,我们的方法在性能上表现出可观的改进。
Apr, 2020
本文介绍一种使用双语词典和神经机器翻译模型来改善极低资源语言翻译的方法,扩展到多语言系统,表现出零 - shot 特性,并分析词典质量、数据集大小、语言家族等因素对翻译质量的影响,结果表明,与基线相比,使用双语词典的方法在多个低资源测试语言上具有明显优势。
Jun, 2022
通过使用公开的 Wordnets、机器翻译和单语种双语字典,我们提出了一种方法来为资源丰富和资源贫乏的语言生成 Wordnet 同义词集,这些方法适用于至少存在一种从英文翻译到该语言的双语词典的任何语言,是自动构建完整 Wordnets 的第一步。
Aug, 2022
该研究提出了一个评估框架,旨在评估神经机器翻译对持续学习新短语的能力,对不同的单词表示进行了单次学习方法的集成,并表明,必须解决这两个挑战才能成功使用双语词典。通过解决这两个挑战,我们能够将翻译新的、罕见的词汇和短语的能力从 30% 提高到 70% 以上,正确的词干甚至达到了 90% 以上。
Feb, 2021
本文提出了一项基于双语词典而非平行句子的机器翻译新任务,采用 “锚定训练”(AT) 方法对其进行处理,实验证明该方法较其他基线方法表现更佳,尤其对于难以自我学习的语言对而言,其表现接近于受监督训练的神经机器翻译,并能发挥双语词典和大规模单语语料库的潜能。
Jul, 2020
本文提出了一种自动化生成和扩展字典和短语表的方法,利用大规模单语数据学习语言结构和小型双语数据映射语言空间之间的线性映射,从而实现翻译缺失的单词和短语,能达到英语和西班牙语之间近 90% 准确率,可用于扩展和完善任何语言对的字典和翻译表。
Sep, 2013
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
本文提出三种工具:MTData、NLCodec 和 RTG,设计一个能够从 500 种源语言翻译成英语的多语言神经机器翻译模型,支持语言种类很多,且模型容易下载和使用。
Apr, 2021