日耳曼语系低资源语言和方言语料库调查

Apr, 2023

日耳曼语系低资源语言和方言语料库调查

A Survey of Corpora for Germanic Low-Resource Languages and Dialects

Verena Blaschke, Hinrich Schütze, Barbara Plank

TL;DR这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Abstract

Despite much progress in recent years, the vast majority of work in natural language processing (NLP) is on standard languages with many speakers. In this work, we instead focus on low-resource languages and in particular non-standardized →

natural language processing low-resource languages annotated corpora germanic languages linguistic resources

发现论文，激发创造

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

低资源语言：现有工作回顾与未来挑战

本文回顾了 NLP 领域中解决低资源语言问题的先前重要进展，并分析了未来研究方向中的潜在改进。

Jun, 2020

跨语言数据集构建与必要资源的综述

该研究旨在量化语言资源之间的不平等性，并提出一些方法来改善低资源语言的数据收集，以促进未来的多语言数据发展。

Nov, 2022

土耳其自然语言处理资源：关键调查

本文综述了土耳其语的语料库和词汇资源，并特别关注公开可用的资源。除了提供可用语言资源的信息，我们还提出了一系列建议，并发现了土耳其语言学和自然语言处理研究和应用构建所需的数据差距。

Apr, 2022

构建和扩展印尼本地语言的低资源和代表性平行数据集

介绍了 Bhinneka Korpus 这一多语种并行语料库，以增强印度尼西亚当地语言资源的获取和利用，并通过 IBM 模型 1 实验表明该语料库在进一步发展低资源语言的高级 NLP 技术和多语种翻译模型方面显示出良好的性能。

Apr, 2024

开放韩国语料库：实用报告

本文介绍了韩语语料库的资源开发、开放数据集以及为促进低资源语言的研究提出了开源数据集的构建和发布方向。

Dec, 2020

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

低资源场景下自然语言处理的最近方法综述

本文调查了低资源自然语言处理的相关方法，其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能，并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。

Oct, 2020

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

某一语言方言的自然语言处理：一项调查

该论文调查了自然语言处理中方言的重要性，描述了不同方言数据集和方法，对方言的研究超过了仅仅方言分类的工作，对构建具有公平性的语言技术有重要意义。

Jan, 2024