BriefGPT.xyz
大模型
Ask
alpha
关键词
f-divergence function
搜索结果 - 1
ACL
序列级知识蒸馏的 f - 分歧最小化
我们提出了一个名为 f-DISTILL 的框架,将序列级别的知识蒸馏作为最小化广义 f - 分歧函数的过程,并显示现有的 SeqKD 和 ENGINE 方法是我们 f-DISTILL 方法的近似。通过在四个数据集上的实验,我们发现我们的方法
→
PDF
a year ago
Prev
Next