IT5: 面向意大利语理解与生成的大规模文本对文本预训练
本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。
Oct, 2020
本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型,通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较,结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58%,而且所得模型需要更少的内存,加载速度更快,推理时间更快。
Feb, 2023
本研究探讨了数据生成文本任务中的预训练和微调策略,实验表明,以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术,如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力,此研究希望成为未来研究的有益基础,随着转移学习在数据生成文本任务中的广泛应用。
May, 2020
本文介绍了我们关于开发一种适用于处理长输入的多语言高效文本到文本转换器的工作,称为 mLongT5 (即在 LongT5 架构上构建并利用用于预训练 mT5 和 UL2 预训练任务的多语言数据集),我们评估了该模型在各种多语言摘要和问答任务上的表现,并与现有的多语言模型(如 mBART 或 M-BERT)进行了比较,表明 mLongT5 相对于这些模型具有更强的性能。
May, 2023
本文介绍了 ViT5,这是一种使用预训练 Transformer-based encoder-decoder 模型为基础的越南语自然语言处理模型,可以在 Abstractive Text Summarization 和 Named Entity Recognition 等任务中实现出色的表现。
May, 2022
本研究介绍了 IndT5,这是首个用于土著语言的 Transformer 语言模型。研究建立了十种土著语言加西班牙语的数据集 IndCorpus,使用 IndT5 实现了西班牙语和土著语言之间的机器翻译。
Apr, 2021
该研究针对资源较少的斯洛文尼亚语,训练了两个不同尺寸的 T5 类型序列到序列模型,并分析其在 11 个任务中的表现,结果显示 SloT5 模型在分类任务上大多落后于单语斯洛文尼亚 SloBERTa 模型,但在生成性任务上很有用。
Jul, 2022
提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型,具有灵活的组件模块和多样化的预训练任务,能够在不同的代码相关基准测试中取得最先进的结果,特别是在针对人类评估的代码生成任务中。
May, 2023
目前,医疗应用的语言技术研究是自然语言理解和生成中的一个热门话题。本文通过编制迄今为止在医疗领域最大的四种语言(英语、法语、意大利语和西班牙语)的多语言语料库,训练出医学领域首个开源的多语言文本对文本模型 Medical mT5,并提出两个新的评估基准,以促进该领域的多语言研究。全面评估结果显示,Medical mT5 在西班牙语、法语和意大利语基准中优于编码器和同等规模的文本对文本模型,与当前最先进的英语大型语言模型具有竞争力。
Apr, 2024
社交媒体上冒犯内容的普遍存在是公司和政府组织越来越关注的问题。本研究提出了第一个具有编码器 - 解码器结构的预训练模型,用于冒犯语言识别,并在两个大型冒犯语言识别数据集(SOLID 和 CCTK)上训练。研究结果表明,预训练的 T5 模型在多个英文基准测试中优于其他基于变压器的模型,在多语言场景中,多语言预训练模型在所有上述数据集上实现了新的最优表现。
Dec, 2023