BriefGPT.xyz
Ask
alpha
关键词
self-distillation method
搜索结果 - 2
ACL
通过提前退出进行投机解码以加速 LLM 推断,并采用汤普森抽样控制机制
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前 N 层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生
→
PDF
a month ago
CVPR
SDPose:基于循环引导自蒸馏的分词姿态估计
SDPose 是一种新的自我蒸馏方法,它基于多周期前向传播设计了一个名为 MCT 的 transformer 模块来提高小型 transformer 模型的性能,同时通过将 MCT 模块的知识提取到一个简单的前向模型中,避免了额外的计算。
PDF
3 months ago
Prev
Next