EMNLPOct, 2023

理解语言模型中输入令牌字符的作用:信息损失如何影响性能?

TL;DR通过预训练语言模型使用个别单词标记的少数字符子集,我们发现即使在极端情况下,即每个标记仅使用一个字符进行预训练,与全标记模型相比,在标准 NLU 基准测试和探测任务中,性能保持较高水平,例如,仅使用标记的单个首字符进行预训练的模型,在 SuperGLUE 和 GLUE 任务中性能保持大约 90% 和 77%。