- EMNLP预训练语言模型的跨度微调
本文提出了一种新颖的跨度微调算法,利用基于卷积神经网络的层次结构增强了预训练语言模型,并在 GLUE 基准下显著提升了其性能。
- 语言建模的课程学习
本研究探讨了使用语言学课程学习法对语言模型预训练的效果,并且在 GLUE 基准测试中评估了转移性能,结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。
- ACL共享超网络的 Transformer 多任务微调的参数高效方法
本文提出了一种通过使用共享的超网络生成适配器参数来学习所有层和任务的参数高效的多任务学习框架,从而在跨任务共享知识的同时,通过任务特定的适配器使模型适应每个单独的任务,并在已知的 GLUE 基准测试中实现了多任务学习的改进性能。
- ACLHiddenCut: 自然语言理解的简单数据增强方法提升泛化性能
通过数据增广技术 HiddenCut,可以更好地规范化模型,激励其学习更通用的特征,从而在 GLUE 基准测试上表现出比现有技术更好的表现。
- ACLMATE-KD: 掩码对抗性文本 —— 知识蒸馏的伴侣
本文介绍一种名为 MATE-KD 的新型对抗训练算法,可改善知识蒸馏的性能,本文的算法在自然语言处理中的应用表现优秀,尤其在关键性能测试(GLUE benchmark)中。
- ACL回归错误藏于模型中!在 NLP 模型更新中测量、减少和分析回归问题
本研究旨在量化、减少和分析 NLP 模型更新中的回归误差,并通过负翻转率作为度量标准,在 GLUE 基准测试中展示了回归错误的普遍存在。最终,我们使用知识蒸馏训练方法,通过模型集成来降低回归错误。同时,我们根据 CheckList 行为测试 - 重构网络剪枝 -- 在预训练和微调范式下
本论文研究在 NLP 领域中,对预训练的 Transformers 模型采取稀疏剪枝 (sparse pruning) 技术,相较于对其通道与层数的压缩,稀疏剪枝的效果更为显著。通过基于 GLUE 数据集的实验比较,证明本论文所采用的知识感 - ICLRMixKD:大规模语言模型高效蒸馏
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
- EMNLP微弱的力量带来巨大的责任
该论文通过元分析现有的自然语言处理论文和数据集,表征了一系列设置的典型统计功率,最终得出结论,在自然语言处理文献中,实验功率不足是常见的。作者还概述了 NLP 统计功率分析的最佳实践,并发布了一系列笔记本来帮助未来的研究者进行统计功率分析。
- EMNLPBERT 压缩的多对多层映射与 Earth Mover's Distance
本文提出了一种基于 many-to-many layer mapping 的 BERT 蒸馏方法,利用 Earth Mover's Distance 计算知识传递的最小累积代价,并采用成本注意机制自动学习传递层权重,以在 GLUE 基准测试 - EMNLP通过谱归一化身份先验对 Transformer 模型中的冗余映射进行修剪
本文介绍了一种基于 SNIP 的结构化剪枝方法,通过对 Transformer 模型中的整个残差模块进行惩罚,识别并丢弃不重要的非线性映射,并引入谱归一化来稳定 Transformer 层的后激活值分布以进一步改善剪枝效果。实验结果表明,S - EMNLP现代语言模型的损失函数
本文探讨了 BERT 预训练在 NSP 任务上的影响以及其他 14 种可能的辅助预训练任务,并研究了将多个任务包含到预训练中的不同方法。实验证明,使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现,并在 GLUE 基准测试中打 - EMNLP对中间表示进行对比蒸馏,用于语言模型压缩
本研究提出了一种基于中间层对比蒸馏的知识蒸馏框架(CoDIR),通过区分正样本和大量负样本,使学生模型通过中间层更好地提取和压缩教师模型的知识,该方法在 GLUE 基准测试中表现优异。
- 回忆和学习:用更少的忘却对深度预训练语言模型进行微调
本论文提出了一种召回和学习机制,它采用了多任务学习的思想,联合学习预训练任务和下游任务,通过先简单地回忆预训练任务的知识,然后逐渐关注下游任务的学习,以实现减少忘记的微调。实验表明,该方法在 GLUE 基准上实现了最新的性能,并为 NLP - 微调预训练语言模型:权重初始化,数据排序和早期停止
该研究通过对 GLUE 基准测试中的四个数据集进行 BERT 的微调,发现同样参数下,不同的随机种子会导致非常不同的结果表现,并且在权重初始化和训练数据排序的两个方面探究其对结果的影响。此外,该研究对微调方法的实现提出了最佳实践,并公开其所 - EMNLPTheseus 的 BERT:通过渐进式模块替换压缩 BERT
本文提出了一种使用渐进模块替换的新型模型压缩方法来有效压缩 BERT。通过在训练中逐步增加替换的概率,使得我们的方法在原始和紧凑模型之间带来了更深入的交互,同时不需要引入任何额外的损失函数,在 GLUE 基准测试中,我们的方法优于现有的知识 - AAAI从内部表示进行知识蒸馏
本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
- FreeLB: 自然语言理解增强型对抗训练
本文提出了一种新的对抗性训练算法 FreeLB,它通过在单词嵌入中添加对抗性扰动并在不同输入样本周围的区域内最小化结果对抗风险,推广了嵌入空间中的更高不变性。实验证明,这种方法能够提高自然语言理解和常识推理任务中 Transformer 模 - 针对词级语义相似性的无监督预训练模型专业化
本研究将外部词汇知识与 BERT 模型的多任务学习相结合,提出了一种 “词汇知情” 的 BERT(LIBERT)模型,比起原始 BERT 在多项语言任务和词汇简化任务中均有显著提高。
- EMNLP探索元学习算法在低资源自然语言理解任务中的应用
本研究探讨了基于元学习算法的模型无关元学习算法(MAML)及其变体,以解决低资源自然语言理解任务中现有方法表现不佳的问题,并在 GLUE 基准测试中验证了该方法的有效性。