Apr, 2023
日耳曼语系低资源语言和方言语料库调查
A Survey of Corpora for Germanic Low-Resource Languages and Dialects
Verena Blaschke, Hinrich Schütze, Barbara Plank
TL;DR这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Abstract
Despite much progress in recent years, the vast majority of work in natural
language processing (NLP) is on standard languages with many speakers. In this
work, we instead focus on low-resource languages and in particular
non-standardized →
natural language processinglow-resource languagesannotated corporagermanic languageslinguistic resources
发现论文,激发创造
NusaWrites:为代表性和极度资源匮乏的语言构建高质量语料库
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023
土耳其自然语言处理资源:关键调查
本文综述了土耳其语的语料库和词汇资源,并特别关注公开可用的资源。除了提供可用语言资源的信息,我们还提出了一系列建议,并发现了土耳其语言学和自然语言处理研究和应用构建所需的数据差距。
Apr, 2022
构建和扩展印尼本地语言的低资源和代表性平行数据集
介绍了 Bhinneka Korpus 这一多语种并行语料库,以增强印度尼西亚当地语言资源的获取和利用,并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。
Apr, 2024
计算语言学文档实验用的极低资源语音语料库
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
低资源场景下自然语言处理的最近方法综述
本文调查了低资源自然语言处理的相关方法,其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能,并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。
Oct, 2020
量化方言差异及其与语言之间的关联
本文通过全面评估最有影响力的最新大型语言模型(LLMs)在机器翻译和自动语音识别两个高使用频率应用领域上的功能,对多个高和低资源语言的地区方言进行了功能评估,并分析了地方方言差距与经济、社会和语言因素的相关性,从而为方言 NLP 领域的发展奠定基础,并通过有意识的数据收集,揭示明显的差异并寻找可能的解决途径。
Oct, 2023