BriefGPT.xyz
大模型
Ask
alpha
关键词
distillation performance
搜索结果 - 3
SynthesizRR: 利用检索增强生成多样化数据集
通过检索和改进综合方法(SynthesizRR),我们通过扩展种子生成内容的方式来合成数据集,从而在语义和词汇多样性、与人类书写文本的相似性以及提纯效果方面极大地改善了标准 32-shot prompting 和其他六种基线方法。
PDF
2 months ago
无数据蒸馏:通过文本到文本迁移的语言模型
提出了一种新的 DFKD 框架,即 DFKD-T^3,该框架将预训练的生成语言模型作为可控数据生成器用于模型压缩,实现了端到端可学习的文本转换框架,通过改善特异性和多样性提高了蒸馏性能,并在情感分析、语言可接受性和信息提取等各种下游任务中展
→
PDF
8 months ago
理解投影仪在知识蒸馏中的影响
在知识蒸馏过程中,我们发现即使学生和老师具有相同的特征维度,添加投影器仍然有助于提高蒸馏性能,并且投影器在体系结构中的添加甚至可以改善逻辑蒸馏。受到这些令人惊讶的发现和现有文献对知识蒸馏过程中投影器角色的不了解的启发,本文研究了被忽视的投影
→
PDF
8 months ago
Prev
Next