AraT5:用于阿拉伯语言生成的文本对文本变换器
本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。
Oct, 2020
使用语言特定的 BERT 模型预训练,构建了 AraBERT 模型,以在阿拉伯语 NLP 任务方面实现最先进的表现。
Feb, 2020
本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型,通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较,结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58%,而且所得模型需要更少的内存,加载速度更快,推理时间更快。
Feb, 2023
我们提供了 ArTST,这是一个预先训练的阿拉伯文本和语音转换器,支持用于阿拉伯语言的开源语音技术。该模型的架构遵循最近发布的英语统一模态框架 SpeechT5,并且专注于现代标准阿拉伯语(MSA),未来版本计划将该模型扩展为方言和混合阿拉伯语。我们从头开始对 MSA 语音和文本数据进行了预训练,并对以下任务进行了微调:自动语音识别(ASR),文本到语音合成(TTS)和口语方言识别。在与 SpeechT5 以及先前报告的结果在这些任务中的比较实验中,ArTST 在所有三个任务中表现与或超过当前最先进技术水平。此外,我们发现我们的预训练有利于泛化,尤其在资源匮乏的 TTS 任务中表现明显。预训练模型以及微调后的 ASR 和 TTS 模型已发布供研究使用。
Oct, 2023
本研究探讨了数据生成文本任务中的预训练和微调策略,实验表明,以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术,如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力,此研究希望成为未来研究的有益基础,随着转移学习在数据生成文本任务中的广泛应用。
May, 2020
本研究旨在解决目前英语和拉丁语为主导的大型语言模型 (LLMs) 中,对于阿拉伯语母语的阿拉伯 LLMs 的缺乏问题。通过提出 ArabianGPT 系列模型,结合 AraNizer 分词工具和微调技术,有效改进了阿拉伯语自然语言处理的准确性和性能。
Feb, 2024
本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作,称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集),我们评估了该模型在各种多语言摘要和问答任务上的表现,并与现有的多语言模型(如 mBART 或 M-BERT)进行了比较,表明 mLongT5 相对于这些模型具有更强的性能。
May, 2023
引入了 IT5 模型,这是首个在意大利语上进行预训练的编码器 - 解码器 Transformer 模型家族,研究表明,它在大多数条件语言生成任务中表现出比其多语种对应物更好的性能。
Mar, 2022
本文研究了针对阿拉伯自然语言处理和英语到阿拉伯语的零样本迁移学习设计的定制双语 BERT 模型 - GigaBERT,重点研究了它在四个信息抽取任务中的零样本迁移效果,实验证明该模型在监督和零样本迁移设置下都显著优于 mBERT、XLM-RoBERTa 和 AraBERT。
Apr, 2020
本研究使用 T5 架构及自回归模型对包含 5 个不同任务的 2 个数据集进行性能比较与错误分析,提出了一种新的数据增强方法以及训练方法并通过解释性人工智能算法提高了预测准确率。
Feb, 2022