将外语新词汇引入资源稀缺的语言初探
总结南部非洲原生非洲语言的自举技术,其中包括使用语法和基于规则的自然语言生成,以及使用比较语言学中的类似度措施,这是进一步研究的肥沃领域。
Oct, 2022
讨论研究者和原住民语音社区成员在开发语言技术以支持濒危语言文档和振兴时所面临的独特技术、文化、实用和伦理挑战,并对未来学术研究者和语言社区利益相关者之间的合作提出建议。
Apr, 2022
介绍了关于开发与使用低资源语种有意义资源的立场,并分析了两个多语种资源的内容、质量以及注重使用该语种的用户开发这些资源的伦理问题,并提出了资源开发的指导方针。
Feb, 2022
本文提出了一种自动创建低资源语言,特别是资源贫乏和濒危语言的大量新双语词典的方法,使用一个单一的输入双语词典生成目标语言的单词翻译,依赖于 Wordnets 和机器翻译器(MT)。
Aug, 2022
研究探讨了语言接触中主导语言对被介入语言的影响,通过使用三种方法(其中包括两种传统的序列比较方法和一种机器学习方法)在拉丁美洲七种常常和西班牙语有大量交流和借词的语言中测试新型的词汇借用检测方法,并通过检测中的误差反映出通过考虑来自受体语言不同意义的捐赠词汇可以大大提高借贷检测的精度。
Feb, 2023
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% 的绝对精度,并且平均比之前的最优方法提高了 1.7% 的绝对准确度。
Apr, 2020