TArC: 突尼斯阿拉伯语语料库的首个完整版本发布

Jul, 2022

TArC: 突尼斯阿拉伯语语料库的首个完整版本发布

TArC: Tunisian Arabish Corpus First complete release

Elisa Gugliotta, Marco Dinarelli

TL;DR本研究在于使用阿拉伯语拉丁写法（Arabizi）对突尼斯阿拉伯语进行编码，在此基础上创建了一个包含语料库和 NLP 工具的资源，用于提供各级语言信息的词语分类、音译、标记、词形归总等，并讨论了使用计算和语言方法进行研究路径和实验的策略等问题，最终提供了可能广泛用于计算和语言研究的资源。

Abstract

In this paper we present the final result of a project on Tunisian Arabic encoded in Arabizi, the Latin-based writing system for digital conversations. The project led to the creation of two integrated and independent resources: a corpus and a NLP tool created to annotate the former with various levels of →

tunisian arabizi annotated corpus neural network architecture pos-tagging linguistic information

发现论文，激发创造

TUNIZI: 一个突尼斯阿拉伯语情感分析数据集

本研究介绍了 TUNIZI，一种情感分析突尼斯语阿拉伯字母表数据集，旨在开发和提高分析研究，通过社交媒体收集并由突尼斯本土讲话者手动标注准备。

Apr, 2020

丰富 NArabizi 树库：多方面支持资源匮乏的语言的方法

本研究针对 NArabizi 语言数据的人工标注数据不足的问题，通过引入两个新的注释层和再次标注的方式，增强了 NArabizi Treebank，从而为该语言的高级语言模型和自然语言处理工具的开发提供了基础。

Jun, 2023

SentiALG：阿尔及利亚情感分析自动语料标注

本文提出了一种自动构建阿尔及利亚方言情感语料库的新方法，该语料库基于自动构建的阿尔及利亚情感词典，涉及使用阿拉伯文和阿拉伯字母拼音写成的社交媒体数据，并且取得了较好的实验结果。

Aug, 2018

针对突尼斯情感分析的单词表示学习

本文探讨了在社交媒体上使用突尼斯方言进行情感分析的挑战和方法，重点介绍了使用无监督学习下的自然语言处理和深度神经网络技术，在不使用手工特征的情况下，成功实现了与其他语言情感分析的相当水平。

Oct, 2020

15 亿词的阿拉伯语语料库

本研究旨在建立一份当代阿拉伯文语料库，收集了包括 8 个阿拉伯国家 10 个主要新闻来源的报纸文章，共计超过 5 百万篇文章，包含 15 亿个单词，标记了 SGML 和 XML 两种标记语言，并使用 UTF-8 和 Windows CP-1256 两种编码格式。

Nov, 2016

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023

利用数据收集和无监督学习对突尼斯阿拉伯语混合语音自动识别的提升

本研究旨在解决突尼斯方言语音识别的挑战，通过采集和注释文本和音频数据，并探索自监督、半监督和少样本代码转换方法，使其在不同的突尼斯测试集中取得前沿成果，最终通过人工评估确保翻译的准确性，所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合，并提供训练和测试数据供公众使用和进一步改进。

Sep, 2023

利山语：带有形态注释的也门、伊拉克、利比亚和苏丹阿拉伯方言语料库

本文介绍了使用 ADAT 工具在多个社交媒体平台中收集了逾 120 万单词量的四种不同阿拉伯方言 Lisan Corpus，并对其词干和词缀进行了分词和词形注解。

Dec, 2022

自由获取的阿拉伯语语料库的关键调查

本文旨在调查目前免费提供的阿拉伯语语料库和语言资源的列表，并提供各种类别研究的发现和可能获得数据的直接链接。初步结果表明有 66 个来源可供选用，以方便自然语言处理应用的建立。

Feb, 2017

ArzEn-ST: 一个用于代码转换的埃及阿拉伯语 - 英语三语言言翻译语料库

本文介绍 ArzEn-ST 语料库的收集工作，该语料库为阿拉伯语 - 英语混合语音翻译语料库，并提出基准系统的机器翻译和语音翻译任务的结果。

Nov, 2022