Feb, 2023
利用数据复用的方式预训练多路复用语言模型 (MUX-PLMs)
MUX-PLMs: Pre-training Language Models with Data Multiplexing
Vishvak Murahari, Ameet Deshpande, Carlos E. Jimenez, Izhak Shafran, Mingqiu Wang...
TL;DR该论文提出了一种用于提高模型推断效率的数据复用方法 - 数据多路复用。此外开发了预训练的多路复用语言模型 MUX-PLMs,通过三阶段训练和新颖的复用和解复用模块来提高吞吐量和下游任务准确性,MUX-BERT 和 MUX- ELECTRA 在维持一定性能准确性的情况下,分别实现了 2x/5x 推断加速。