May, 2023

在低端硬件上使用语言模型

TL;DR本研究探讨了在低端硬件上使用固定语言模型为训练文本分类网络提供有效性的可行性,将语言模型与 CNN 构架相结合,并在 8 个数据集上进行了综合基准测试,覆盖了话题、情感和风格的单标签和多标签分类。我们的研究提出了一系列权衡,结论是,在某些情况下,不微调语言模型能够在更快的训练时间内具有竞争力的效果,并且只需要微调的内存的四分之一。