关键词distillation-based approaches
搜索结果 - 2
- ICML多视角自监督学习中的熵和重构的作用
多视角自监督学习的成功机制尚未完全了解,本文通过熵和重构项 (ER) 的下界进行分析,发现基于聚类的方法最大化了互信息 (MI),而基于蒸馏的方法则显式地最大化了重构项并隐式地鼓励稳定熵,通过用 ER 下界替换常见 MVSSL 方法的目标, - ACL终身预训练:持续适应新出现的语料库的语言模型
本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练,并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战,结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这