为濒危语言创建词汇资源
本文提出了一种自动创建低资源语言,特别是资源贫乏和濒危语言的大量新双语词典的方法,使用一个单一的输入双语词典生成目标语言的单词翻译,依赖于 Wordnets 和机器翻译器(MT)。
Aug, 2022
讨论研究者和原住民语音社区成员在开发语言技术以支持濒危语言文档和振兴时所面临的独特技术、文化、实用和伦理挑战,并对未来学术研究者和语言社区利益相关者之间的合作提出建议。
Apr, 2022
本文提出从已有的包含英语的双语词典中创建新的反向双语词典的算法,利用英语 Wordnet 中单词 - 概念对之间的相似性来生成反向词典条目,并且只要其中的一种语言具有 Wordnet 类型的词汇学本体论,这些算法就适用于任何双语词典。
Aug, 2022
本研究提出了一种基于双语词典的数据增强技术,使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量,我们的方法在性能上表现出可观的改进。
Apr, 2020
本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子,证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。
Jun, 2018
针对严重低资源语言,我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本,结果表明,首先将大型预训练的多语言模型适应到有限的文本领域 / 语言,然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量,同时将种子句数量降至约 1000 句。
May, 2023
介绍了关于开发与使用低资源语种有意义资源的立场,并分析了两个多语种资源的内容、质量以及注重使用该语种的用户开发这些资源的伦理问题,并提出了资源开发的指导方针。
Feb, 2022
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
本文介绍一种使用双语词典和神经机器翻译模型来改善极低资源语言翻译的方法,扩展到多语言系统,表现出零 - shot 特性,并分析词典质量、数据集大小、语言家族等因素对翻译质量的影响,结果表明,与基线相比,使用双语词典的方法在多个低资源测试语言上具有明显优势。
Jun, 2022