通过随机权重平均改进预训练语言模型的泛化能力

EMNLPDec, 2022

通过随机权重平均改进预训练语言模型的泛化能力

Improving Generalization of Pre-trained Language Models via Stochastic Weight Averaging

Peng Lu, Ivan Kobyzev, Mehdi Rezagholizadeh, Ahmad Rashid, Ali Ghodsi...

TL;DR本文提出了一种基于 Stochastic Weight Averaging 的优化方法，用于改善预训练语言模型在 NLP 任务中的泛化能力，而无需额外计算成本，并展示了其在不同模型架构和任务中的出色表现。

Abstract

knowledge distillation (KD) is a commonly used technique for improving the generalization of compact Pre-trained Language Models (PLMs) on downstream tasks. However, such methods impose the additional burden of t

knowledge distillation pre-trained language model stochastic weight averaging optimization generalization

发现论文，激发创造

加权平均改善领域偏移下的知识蒸馏

知识蒸馏是一种强大的模型压缩技术，该论文通过在域偏移下对权重平均技术的应用，桥接了知识蒸馏和域泛化的研究领域，并提出了一种简化的权重平均策略，称为加权平均知识蒸馏（WAKD）方法。

Sep, 2023

AdaKD：使用自适应损失加权的 ASR 模型动态知识蒸馏

本文提出了一种自适应知识蒸馏技术，通过课程学习的启发，以实例级别自适应地加权损失，并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。

May, 2024

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

GKD: 一种大规模预训练语言模型的通用知识蒸馏框架

提出 GKD 框架，支持在内存受限的 GPU 上使用各种蒸馏方法，以支持至少 100B 规模的 PLMs 的蒸馏，可在单个框架内轻松切换和组合不同的蒸馏方法。

Jun, 2023

泛化问题的重要性：通过参数混合实现最小化损失平稳以实现高效在线知识蒸馏

本篇论文提出了一种在线知识蒸馏方法，采用多模型设置和参数混合的方式来提高学生的泛化性能，该方法可以达到更平坦的最小值并获得稳健的解决方案。

Mar, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

从弱教师进行知识蒸馏以提高预训练语言模型的规模研究

本文通过实验探究了 Distillation from Weak Teacher (DWT) 在 NLP 预训练中的最佳使用条件，主要涉及教师模型质量、DWT 损失权重值调整指南和参数重新映射技术对学生模型初始化的影响。

May, 2023

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024