IT5: 面向意大利语理解与生成的大规模文本对文本预训练

Mar, 2022

IT5: 面向意大利语理解与生成的大规模文本对文本预训练

IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation

Gabriele Sarti, Malvina Nissim

TL;DR引入了 IT5 模型，这是首个在意大利语上进行预训练的编码器 - 解码器 Transformer 模型家族，研究表明，它在大多数条件语言生成任务中表现出比其多语种对应物更好的性能。

Abstract

The t5 model and its unified text-to-text paradigm contributed in advancing the state-of-the-art for many natural language processing tasks. While some →

t5 model natural language processing it5 models multilingual variants italian language

发现论文，激发创造

mT5: 一种大规模多语言预训练文本到文本的转换器

本文介绍了 mT5，这是 T5 的多语言变体，基于新的基于 Common Crawl 的数据集进行预训练，涵盖 101 种语言，并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术，用于在零 - shot 设置中防止 “意外翻译”。

Oct, 2020

印尼语多语 T5 转换器

本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型，通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较，结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58％，而且所得模型需要更少的内存，加载速度更快，推理时间更快。

Feb, 2023

数据到文本任务的文本到文本预训练

本研究探讨了数据生成文本任务中的预训练和微调策略，实验表明，以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术，如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力，此研究希望成为未来研究的有益基础，随着转移学习在数据生成文本任务中的广泛应用。

May, 2020

mLongT5：针对更长序列的多语言高效文本转换器

本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作，称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集)，我们评估了该模型在各种多语言摘要和问答任务上的表现，并与现有的多语言模型（如 mBART 或 M-BERT）进行了比较，表明 mLongT5 相对于这些模型具有更强的性能。

May, 2023

ViT5: 预训练的文本到文本 Transformer 模型用于越南语生成

本文介绍了 ViT5，这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型，可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。

May, 2022

IndT5：一个用于 10 种土著语言的文本到文本转换器

本研究介绍了 IndT5，这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus，使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。

Apr, 2021

用于资源较少的斯洛文尼亚语的序列到序列预训练

该研究针对资源较少的斯洛文尼亚语，训练了两个不同尺寸的 T5 类型序列到序列模型，并分析其在 11 个任务中的表现，结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型，但在生成性任务上很有用。

Jul, 2022

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

医学 mT5：一个开源的医学领域的多语言文本到文本 LLM

目前，医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言（英语、法语、意大利语和西班牙语）的多语言语料库，训练出医学领域首个开源的多语言文本对文本模型 Medical mT5，并提出两个新的评估基准，以促进该领域的多语言研究。全面评估结果显示，Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型，与当前最先进的英语大型语言模型具有竞争力。

Apr, 2024

多语言冒犯性语言识别的文本对文本模型

社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型，用于冒犯语言识别，并在两个大型冒犯语言识别数据集（SOLID 和 CCTK）上训练。研究结果表明，预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型，在多语言场景中，多语言预训练模型在所有上述数据集上实现了新的最优表现。

Dec, 2023