ArTST：阿拉伯文本和语音转换器

Oct, 2023

ArTST: Arabic Text and Speech Transformer

Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki

TL;DR我们提供了 ArTST，这是一个预先训练的阿拉伯文本和语音转换器，支持用于阿拉伯语言的开源语音技术。该模型的架构遵循最近发布的英语统一模态框架 SpeechT5，并且专注于现代标准阿拉伯语（MSA），未来版本计划将该模型扩展为方言和混合阿拉伯语。我们从头开始对 MSA 语音和文本数据进行了预训练，并对以下任务进行了微调：自动语音识别（ASR），文本到语音合成（TTS）和口语方言识别。在与 SpeechT5 以及先前报告的结果在这些任务中的比较实验中，ArTST 在所有三个任务中表现与或超过当前最先进技术水平。此外，我们发现我们的预训练有利于泛化，尤其在资源匮乏的 TTS 任务中表现明显。预训练模型以及微调后的 ASR 和 TTS 模型已发布供研究使用。

Abstract

We present artst, a pre-trained arabic text and speech transformer for supporting open-source →

artst pre-trained arabic speech technologies unified-modal framework

发现论文，激发创造

AraBART：用于抽象化摘要的预训练阿拉伯语序列到序列模型

本文介绍了 AraBART，这是第一个使用 BART 预训练技术进行端到端预训练的阿拉伯语模型，通过在多个抽象摘要数据集上的测试，显示 AraBART 在摘要生成方面具有较好的性能，超过了类似的基线模型。

Mar, 2022

ClArTTS: 一个开放源代码的古典阿拉伯语语音合成语料库

通过提供一个古典阿拉伯文本到语音合成的语音语料库 (ClArTTS)，我们填补了现有资源中阿拉伯语音语料库的空缺，以支持一些现代的端到端阿拉伯语音合成系统。

Feb, 2023

AraT5：用于阿拉伯语言生成的文本对文本变换器

应用多语言 T5 模型在阿拉伯语中进行了评估，针对 7 项任务进行了新颖的基准测试，并使用最新算法，为该领域提出了新型的强大模型

Aug, 2021

面向阿拉伯方言的零射 Text-To-Speech

构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。

Jun, 2024

AraBERT：基于 Transformer 的阿拉伯语语言理解模型

使用语言特定的 BERT 模型预训练，构建了 AraBERT 模型，以在阿拉伯语 NLP 任务方面实现最先进的表现。

Feb, 2020

TURJUMAN：用于神经阿拉伯语机器翻译的公共工具包

TURJUMAN 是一个神经工具包，可将 20 种语言翻译成现代标准阿拉伯语（MSA）。我们使用 AraT5 模型进行训练，并使用多种解码方法，使其适用于获取 MSA 翻译的释义。我们还通过简单的语义相似性方法从公共可用的平行数据中采样，以保证数据质量，并发布了机器翻译基准测试数据集 AraOPUS-20。

May, 2022

教育中的 Transformer 模型：用 AraBART、MT5、AraT5 和 mBART 概括科学教材

基于现代自然语言处理模型，该研究提出了一种针对阿拉伯文教科书的文本摘要系统，通过评估和提取巴勒斯坦课程中 11 年级和 12 年级生物教科书中最重要的句子，为学生和教师提供了准确有用的摘要，旨在解决阿拉伯文文本摘要的需求，并丰富了该领域的研究与发展。

Jun, 2024

基于人工智能的阿拉伯语言与语音辅导

该论文介绍了基于人工智能技术的阿拉伯语言和发音辅导系统（AI-ALST），使用自然语言处理技术和聊天机器人来创建一个智能的自我学习环境，该系统通过提取语音特征、双向 LSTM 和注意力机制来检测阿拉伯语口音单词发音是否准确，证明该系统能够有效地检测并评估学生的发音错误。

Oct, 2022

基于端到端、模块化系统和人类的阿拉伯语语音识别

这篇文章探讨了自动语音识别方面的技术进展，并比较了针对阿拉伯语和其方言的端到端 Transformer ASR，模块化 HMM-DNN ASR 和人类讲话识别技术之间的性能差距，结果表明，人类在阿拉伯语方面表现仍然明显优于机器。

Jan, 2021

ArmanTTS 波斯语单说话人数据集

本文介绍了单人发音数据集 ArmanTTS，通过对比各种普遍数据集的特征，证明了 ArmanTTS 是教授波斯文本到语音转换模型所必需的标准。我们结合 Tacotron 2 和 HiFi GAN 设计了一个模型，可以接收音素作为输入，输出是相应的语音合成，并获得了 MOS 评分分别为实际语音的值为 4.0、音频编解码器预测的值为 3.87 和 TTS 模型生成的合成语音的值为 2.98。

Apr, 2023