ACLMay, 2023

如何进行字符级别的编码器模型

TL;DR本研究旨在为最近提出的在字符级别输出上下文表示的语言理解模型建立基准,探讨了不同架构和不同预训练目标对最终模型性能的相对贡献,发现字符级别的最佳性能超过了基于标记的模型,在多语言语言表示方面具有广泛应用前景,但最佳的训练方法仍取决于标记器的质量。