nanoT5：基于 PyTorch 的用于有限资源的 T5 风格模型预训练和微调的框架

Sep, 2023

nanoT5：基于 PyTorch 的用于有限资源的 T5 风格模型预训练和微调的框架

nanoT5: A PyTorch Framework for Pre-training and Fine-tuning T5-style Models with Limited Resources

Piotr Nawrot

TL;DRT5 模型的计算要求限制了很大一部分研究社区，为了解决这个挑战，我们提出了 nanoT5，这是一个专门优化的 PyTorch 框架，用于高效的 T5 模型的预训练和微调，通过优化的方式，使用 nanoT5 可以在仅 16 小时内用单个 GPU 对 T5-Base 模型进行预训练，而不会损失性能。我们希望通过这个开源框架的引入，扩大对语言建模研究的可访问性，并满足社区对更友好的 T5（Encoder-Decoder）实现的需求。我们的贡献包括配置、代码库、软件 / 硬件洞察和预训练模型，都对公众开放，旨在在自然语言处理中平衡研究可访问性和资源限制。

Abstract

State-of-the-art language models like t5 have revolutionized the NLP landscape, but their computational demands hinder a large portion of the research community. To address this challenge, we present nanot5, a sp

t5 nanot5 pytorch framework pre-training fine-tuning

发现论文，激发创造

mT5: 一种大规模多语言预训练文本到文本的转换器

本文介绍了 mT5，这是 T5 的多语言变体，基于新的基于 Common Crawl 的数据集进行预训练，涵盖 101 种语言，并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术，用于在零 - shot 设置中防止 “意外翻译”。

Oct, 2020

ptt5-v2：对 T5 模型在葡萄牙语上的持续预训练的深入研究

本文介绍了继续预训练 T5 模型的研究，特别是在葡萄牙语方面的应用及其对下游任务的影响，通过实验和优化配置获得了令人满意的结果。

Jun, 2024

利用实验室规模的资源训练 T5 模型

本文提出多种训练大型神经语言模型的技术，旨在使资源少的实验室也能在合理的时间内建立具有竞争力的模型，并通过一个针对丹麦语的 T5 模型案例分享建议。

Aug, 2022

IT5: 面向意大利语理解与生成的大规模文本对文本预训练

引入了 IT5 模型，这是首个在意大利语上进行预训练的编码器 - 解码器 Transformer 模型家族，研究表明，它在大多数条件语言生成任务中表现出比其多语种对应物更好的性能。

Mar, 2022

从零开始的 NLP：一个简单高效的无大规模预训练的框架

提出了一种简单而高效的学习框架 TLM, 该框架不依赖于大规模预训练的语言模型，通过使用任务数据作为查询提取一小部分通用语料库，并从头开始联合优化任务目标和语言建模目标，在四个领域的八个分类数据集上实现了与预训练语言模型相当或更好的结果，而将训练 FLOPs 减少了两个数量级。

Nov, 2021

数据到文本任务的文本到文本预训练

本研究探讨了数据生成文本任务中的预训练和微调策略，实验表明，以 T5 为代表的文本预训练方法使得简单的端到端 Transformer 模型在数据生成文本方面的性能优于传统的神经网络体系结构以及其他预训练技术，如 BERT 和 GPT-2。T5 预训练技术在域外测试集上表现出更好的泛化能力，此研究希望成为未来研究的有益基础，随着转移学习在数据生成文本任务中的广泛应用。

May, 2020

印尼语多语 T5 转换器

本文研究了将 mT5 多语言模型适应为仅针对印尼语的预训练 T5 模型，通过对多语言模型与本模型在情感分析、问题生成和问答三个任务的表现进行比较，结果表明可以生成一个更小的预训练模型并在 comparable yields 的同时减小模型大小高达 58％，而且所得模型需要更少的内存，加载速度更快，推理时间更快。

Feb, 2023

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为 CodeT5 + 的编译器 - 解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

使用 Text-To-Text Transfer Transformer 研究支持与代码相关的任务

本文利用自然语言处理中的 T5 模型并进行深度学习的预训练和微调，以实现支持自动修复代码、代码注释生成等与代码相关任务的性能优化。

Feb, 2021

SpeechT5：面向口语语言处理的统一模态编解码预训练

本文介绍了一种名为 SpeechT5 的统一多模态语音文本表示学习框架，该框架采用编码器 - 解码器预训练的方法进行自监督学习，具有包括自动语音识别、语音合成、语音翻译、语音增强和说话人识别在内的广泛的口语处理任务上的卓越性能。

Oct, 2021