May, 2023

语言模型标记器引入了语言之间的不公平性

TL;DR研究显示,语言模型在处理不同语言时存在标记化差异,导致部分语言社区无法公平访问商业语言服务、处理时间和网络延迟,并限制了模型学习的上下文,因此建议使用多语种公平标记器来训练未来的语言模型。