为濒危语言创建词汇资源

Aug, 2022

Creating Lexical Resources for Endangered Languages

Khang Nhut Lam, Feras Al Tarouti, Jugal Kalita

TL;DR本文旨在探讨为濒危语言生成词汇资源的方法，通过使用公共词网和机器翻译器构建双语词典和多语言词库，奠定了一个基础，尤其适用于缺乏资源的语言。

Abstract

This paper examines approaches to generate lexical resources for endangered languages. Our algorithms construct bilingual dictionaries and multilingual thesauruses using public Wordnets and a →

lexical resources endangered languages bilingual dictionaries multilingual thesauruses machine translator

发现论文，激发创造

自动创建大量新的双语词典

本文提出了一种自动创建低资源语言，特别是资源贫乏和濒危语言的大量新双语词典的方法，使用一个单一的输入双语词典生成目标语言的单词翻译，依赖于 Wordnets 和机器翻译器（MT）。

Aug, 2022

在开发濒危语言技术时优先考虑社区需求，而非个人偏好

讨论研究者和原住民语音社区成员在开发语言技术以支持濒危语言文档和振兴时所面临的独特技术、文化、实用和伦理挑战，并对未来学术研究者和语言社区利益相关者之间的合作提出建议。

Apr, 2022

创建反向双语词典

本文提出从已有的包含英语的双语词典中创建新的反向双语词典的算法，利用英语 Wordnet 中单词 - 概念对之间的相似性来生成反向词典条目，并且只要其中的一种语言具有 Wordnet 类型的词汇学本体论，这些算法就适用于任何双语词典。

Aug, 2022

雇佣一位语言学家！：通过上下文语言描述学习濒危语言

我们提出 LINGOLLM，一种无需训练的方法，使大型语言模型能够处理在其预训练中几乎不出现的未知语言，从而大大提高了翻译能力。

Feb, 2024

利用双语词典进行低资源半监督神经机器翻译

本研究提出了一种基于双语词典的数据增强技术，使得机器翻译模型能够扩展词汇表而不会影响低资源环境下的合成句子的质量，我们的方法在性能上表现出可观的改进。

Apr, 2020

利用可比语料库诱导的双语词典进行低资源语言的神经机器翻译

本文使用端到端的 Siamese 双向递归神经网络从 Wikipedia 的可比较多语言文章中提取并生成平行句子，证明使用所收集的数据集可以提高低资源语言对 (英―印度语和英―泰米尔语) 上的 BLEU 分数。

Jun, 2018

全球训练，定制本地化：极简多语翻译应用于濒危语言

针对严重低资源语言，我们使用两种方法以尽可能高的质量翻译跨语言已知的有限文本，结果表明，首先将大型预训练的多语言模型适应到有限的文本领域 / 语言，然后再针对严重低资源语言进行调整表现最好。选择最佳的种子句也可以进一步提高翻译质量，同时将种子句数量降至约 1000 句。

May, 2023

走向更有意义的低资源语言资源

介绍了关于开发与使用低资源语种有意义资源的立场，并分析了两个多语种资源的内容、质量以及注重使用该语种的用户开发这些资源的伦理问题，并提出了资源开发的指导方针。

Feb, 2022

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

本文探究了利用双语词典作为文本资源，从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据，通过不同策略合成文本或标注数据，并与单语文本或平行文本相结合，以提高在三个任务上 19 种欠发达语言的性能，为千余种使用 NLP 技术的欠代表语种提供了思路。

Mar, 2022

基于双语词典的极低资源语言 NMT

本文介绍一种使用双语词典和神经机器翻译模型来改善极低资源语言翻译的方法，扩展到多语言系统，表现出零 - shot 特性，并分析词典质量、数据集大小、语言家族等因素对翻译质量的影响，结果表明，与基线相比，使用双语词典的方法在多个低资源测试语言上具有明显优势。

Jun, 2022