May, 2023
语言模型标记器引入了语言之间的不公平性
Language Model Tokenizers Introduce Unfairness Between Languages
Aleksandar Petrov, Emanuele La Malfa, Philip H.S. Torr, Adel Bibi
TL;DR研究显示,语言模型在处理不同语言时存在标记化差异,导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟,并限制了模型学习的上下文,因此建议使用多语种公平标记器来训练未来的语言模型。