May, 2024

超小型语言模型

TL;DR通过引入一系列研究工作,本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现,包括字节级的分词和汇聚机制、参数联系以及高效的训练策略,以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现,未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题,旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。