BriefGPT.xyz
Ask
alpha
关键词
attention alignment module
搜索结果 - 1
COLING
对齐蒸馏:神经机器翻译中用于知识蒸馏的可训练注意力对齐
通过学生模型与教师模型的自适应对齐,'Align-to-Distill'(A2D)策略在 Transformer 架构的知识蒸馏中解决了特征映射问题,实验证明 A2D 相较于 Transformer 基准模型,在 WMT-2022 的 De
→
PDF
4 months ago
Prev
Next