LDC 阿拉伯语树库和相关语料库:数据分区手册
本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus,并对其词干和词缀进行了分词和词形注解。
Dec, 2022
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
本研究提出黎巴嫩 Corpus Baladi 作为阿拉伯语方言特定语料库的一部分,该语料库包含近 9.6K 个语素注释令牌,并旨在旨在丰富 Palestinian morphologically annotated Curras corpus,改进其解决检测到的错误。
May, 2022
本文提出在构建 NLP 模型时,需要关注文化和(社会)语言细微差别,特别是在数据集注释和文化语言方面的经验应该被纳入该过程中。提供了一个适用于多方言语言的负责数据集创建的示例。
Mar, 2022
该论文描述了最近几年自然语言处理管道的进展,重点介绍了由 200 个数据集构成的阿拉伯语 NLP 数据集最大的公共目录 Masader,以及为其他语言开发的元数据注释策略。
Oct, 2021
本论文介绍了基于维基百科选定主题的希伯来 UD 树库,进行了质量评估,并且使用最新的语言模型和现有的基于转换器的方法进行了跨域分析实验,取得了最新的技术成果。
Oct, 2022
该研究致力于解决阿拉伯地区数据稀缺的问题,以鼓励开发真实地反映该地区语言和细微差异的阿拉伯语言模型。通过从 Common Crawl WET 文件中提取大量阿拉伯文本数据,经过严格的清洗和去重处理,形成了迄今为止最大的 1010 亿阿拉伯词汇数据集,这将对真实的阿拉伯语言模型的发展产生重要贡献。该研究不仅强调了创造语言和文化准确的阿拉伯语言模型的潜力,还为增强阿拉伯语言模型的真实性奠定了未来研究的先例。
Apr, 2024
本研究针对 NArabizi 语言数据的人工标注数据不足的问题,通过引入两个新的注释层和再次标注的方式,增强了 NArabizi Treebank,从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。
Jun, 2023
本文介绍了对现代标准阿拉伯语(MSA)文本的词汇语义分析和注释的持续努力,提出了一个半自动注释工具,涉及描述的形态、句法和语义层面。
May, 2016
本文介绍了一个 Hindi Legal Documents Corpus (HLDC) 的语料库,它包含了超过 900K 的清理和结构化的印地语法律文件。通过使用该语料库,我们引入了保释预测的任务,并使用了多任务学习(MTL)模型作为主要任务,用作概括任务的辅助任务。最后,我们释放了此论文的语料库和模型实现代码。
Apr, 2022