ICLRJun, 2021

Charformer: 基于梯度的子词分词加速字符变换器

TL;DR该研究提出了使用渐变学习的子单词标记模块(GBST)作为深度 Transformer 模型 Charformer 的一部分来进行端到端学习,以在自然语言处理中改进字节级模型的性能。在英语 GLUE、多语言和噪声文本数据集上的结果表明,Charformer 在速度上快于标准字节级和子单词级 Transformers 28-100%,同时保持了有竞争力的质量。