BriefGPT.xyz
大模型
Ask
alpha
关键词
capacity gap
搜索结果 - 3
走向语言模型蒸馏中的能力差距之法则
利用大型教师语言模型(LM)向小型学生语言模型(LM)进行知识提取是一个热门领域。本文揭示了容量差的最佳点对教师 LM 和学生 LM 之间的实用性影响,同时呈现了一种新的计算性能平衡的学生 LM 模型(MiniMA),在 GPT4 评估中表
→
PDF
8 months ago
ACL
模态适应还是正则化?以端到端语音翻译为例的案例研究
该研究发现,在端到端语音翻译 (E2E ST) 的预训练和微调中,存在语音和文本数据之间的模态差异,但该差异只在微调的早期阶段产生影响。然而,另一个 “容量差距” 则是高资源任务总是需要一个大模型来适应,当模型被重用于低资源任务 (E2E
→
PDF
a year ago
ACL
消除调制语言模型中的容量差距
本文介绍了一种基于最小化专家组 (MiniMoE) 的模型压缩框架,以解决预训练语言模型中师生之间的容量差异,从而在保持准确率的情况下减少推理计算量与压缩模型的大小。
PDF
a year ago
Prev
Next