BriefGPT.xyz
Ask
alpha
关键词
co-distillation
搜索结果 - 4
语言模型的质量改进和压缩的共训练与共蒸馏
知识蒸馏是一种通过将知识传递给较小的模型来压缩计算成本昂贵的预训练语言模型,从而实现在资源受限或实时环境中使用的方法。为了解决性能和推理速度同时提高的问题,我们提出了一种名为 Co-Training and Co-Distillation
→
PDF
8 months ago
减少模型抖动:在生产环境中稳定地重新训练语义解析器
本论文研究如何应对模型迭代过程中出现的抖动现象,通过引入模型准确性度量指标,研究噪声和模型大小带来的影响,并尝试采用集成和蒸馏等技术降低抖动,其中 co-distillation 技术在资源利用率上有适度提升的同时,可在语义分析系统中达到最
→
PDF
2 years ago
神经网络预测的可再现性研究
研究神经网络模型中随机性导致的模型预测差异问题,提出最小熵正则化和协同蒸馏的两种方法用于减少模型预测差异并提高准确性。
PDF
3 years ago
EnsembleNet:多头模型的端到端优化
本研究通过提出更为简单有效的对应蒸馏架构,将单一深度神经网络转化为最优性能且规模更小的多头模型,提高机器学习模型的性能并实现端到端优化。
PDF
5 years ago
Prev
Next