LDC 阿拉伯语树库和相关语料库：数据分区手册

Sep, 2013

LDC 阿拉伯语树库和相关语料库：数据分区手册

LDC Arabic Treebanks and Associated Corpora: Data Divisions Manual

Mona Diab, Nizar Habash, Owen Rambow, Ryan Roth

TL;DR该文介绍了一组规则，用于将 LDC 开发的阿拉伯语树库数据集划分为多个数据集，以满足自然语言处理研究中模型培训、技术开发和最终评估等需求。

Abstract

The linguistic data consortium (LDC) has developed hundreds of data corpora for natural language processing (NLP) research. Among these are a number of →

linguistic data consortium natural language processing annotated treebank corpora arabic data sets

发现论文，激发创造

利山语：带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库

本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus，并对其词干和词缀进行了分词和词形注解。

Dec, 2022

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

Curras + Baladi: 迈向黎凡特文集

本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分，该语料库包含近 9.6K 个语素注释令牌，并旨在旨在丰富 Palestinian morphologically annotated Curras corpus，改进其解决检测到的错误。

May, 2022

针对阿拉伯语的多样性进行负责任的自然语言注释

本文提出在构建 NLP 模型时，需要关注文化和（社会）语言细微差别，特别是在数据集注释和文化语言方面的经验应该被纳入该过程中。提供了一个适用于多方言语言的负责数据集创建的示例。

Mar, 2022

Masader: 面向阿拉伯文本和语音数据资源的元数据采集

该论文描述了最近几年自然语言处理管道的进展，重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader，以及为其他语言开发的元数据注释策略。

Oct, 2021

UD 希伯来语树库和跨领域分析的第二波

本论文介绍了基于维基百科选定主题的希伯来 UD 树库，进行了质量评估，并且使用最新的语言模型和现有的基于转换器的方法进行了跨域分析实验，取得了最新的技术成果。

Oct, 2022

101 亿阿拉伯语词汇数据集

该研究致力于解决阿拉伯地区数据稀缺的问题，以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据，经过严格的清洗和去重处理，形成了迄今为止最大的 1010 亿阿拉伯词汇数据集，这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力，还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。

Apr, 2024

丰富 NArabizi 树库：多方面支持资源匮乏的语言的方法

本研究针对 NArabizi 语言数据的人工标注数据不足的问题，通过引入两个新的注释层和再次标注的方式，增强了 NArabizi Treebank，从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。

Jun, 2023

阿拉伯语语料库的多级分析和注释用于文本 - 手语机器翻译

本文介绍了对现代标准阿拉伯语（MSA）文本的词汇语义分析和注释的持续努力，提出了一个半自动注释工具，涉及描述的形态、句法和语义层面。

May, 2016

HLDC: 印地語法律文件語料庫

本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库，它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库，我们引入了保释预测的任务，并使用了多任务学习（MTL）模型作为主要任务，用作概括任务的辅助任务。最后，我们释放了此论文的语料库和模型实现代码。

Apr, 2022