Mar, 2024

MYTE: 基于形态的字节编码以改进和公平多语言建模

TL;DR通过使用一种基于词素的编码约定(MYTE),我们能够代表多种语言的相同信息,并改善多语言语言模型性能以及减少了不同语言之间的困惑度差异。