ACLMay, 2021

ByT5: 面向预训练字节到字节模型的无令牌未来

TL;DR本文研究了基于字节级别文本的 Transformer 架构,相比于基于词或子词的标准模型,该模型可处理任何语言的文本,更加稳健且精度更高,并开源了基于 T5 架构的预训练模型及所有实验所用代码和数据。