Sep, 2023

nanoT5:基于 PyTorch 的用于有限资源的 T5 风格模型预训练和微调的框架

TL;DRT5 模型的计算要求限制了很大一部分研究社区,为了解决这个挑战,我们提出了 nanoT5,这是一个专门优化的 PyTorch 框架,用于高效的 T5 模型的预训练和微调,通过优化的方式,使用 nanoT5 可以在仅 16 小时内用单个 GPU 对 T5-Base 模型进行预训练,而不会损失性能。我们希望通过这个开源框架的引入,扩大对语言建模研究的可访问性,并满足社区对更友好的 T5(Encoder-Decoder)实现的需求。我们的贡献包括配置、代码库、软件 / 硬件洞察和预训练模型,都对公众开放,旨在在自然语言处理中平衡研究可访问性和资源限制。