Jul, 2024

通过自监督早期退出加速大型语言模型推理

TL;DR本文针对大型预训练语言模型推理中的高计算需求问题,提出了一种新颖的早期退出技术,旨在加速推理过程。通过在现有的变换器层上集成自我监督训练的早期退出“头”,可以实现基于信心指标的条件性终止,从而在保证准确性的同时减少计算时间,极大提升了大型语言模型在资源受限环境下的实际应用潜力。