Dec, 2023

基于样例的动态分层 Transformer:通过上下文强化学习实现层和头的灵活性

TL;DR通过解决上下文赌博问题动态配置层数和头数,我们提出了一种基于样本的动态层级变压器模型(DHT),与先前关注于仅推理的训练网络压缩不同,DHT 不仅有优势用于训练期间自适应优化底层网络架构,而且具备高效推理的灵活网络结构,得到高达 74%的计算节省同时最小化准确性损失。