Mar, 2024
MYTE: 基于形态的字节编码以改进和公平多语言建模
MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling
Tomasz Limisiewicz, Terra Blevins, Hila Gonen, Orevaoghene Ahia, Luke Zettlemoyer
TL;DR通过使用一种基于词素的编码约定(MYTE),我们能够代表多种语言的相同信息,并改善多语言语言模型性能以及减少了不同语言之间的困惑度差异。