NewsBERT: 挖掘预训练语言模型应用于智能新闻

Feb, 2021

NewsBERT: 挖掘预训练语言模型应用于智能新闻

NewsBERT: Distilling Pre-trained Language Model for Intelligent News Application

Chuhan Wu, Fangzhao Wu, Yang Yu, Tao Qi, Yongfeng Huang...

TL;DR本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法，该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型，以提高新闻智能应用的性能，并且在两个真实世界的数据集上进行了广泛的实验。

Abstract

pre-trained language models (PLMs) like BERT have made great progress in nlp. News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelli

pre-trained language models newsbert knowledge distillation techniques news intelligence nlp

发现论文，激发创造

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

通过信息瓶颈原理进行文本表示精简

为了使模型更加易用，我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD，通过最大化教师模型和学生模型的最终表示之间的互信息，并减少学生模型表示和输入数据之间的互信息，以保留重要的学习信息并避免过拟合的风险，从而有效地在文本表示和下游任务中应用。

Nov, 2023

利用预训练语言模型增强新闻推荐

本文介绍了使用预训练语言模型进行个性化新闻推荐的方法，通过离线实验结果表明，该方法在英语和全球市场上都取得了显著的点击和页面查看量的提高，关键词包括个性化新闻推荐、文本建模、预训练语言模型、新闻建模和离线实验结果。

Apr, 2021

用未标记的转移数据将 BERT 蒸馏为简单的神经网络

该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题，探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明，使用软蒸馏和利用教师模型的中间表示，学生模型的性能可以进一步提高，而在低资源环境下，学生模型在保证与教师模型性能基本持平的情况下，可实现最多 26 倍的压缩比，针对多语言环境的扩展实验结果更是惊人。

Oct, 2019

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

LLM 教育中的知识蒸馏

本研究提出了一种方法，将大型语言模型（LLMs）的知识提炼为一个更小、更高效且准确的神经网络，以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用 LLM 的预测概率训练较小的学生模型，作为教师模型，通过专门设计的损失函数来学习 LLM 的输出概率，确保学生模型能够准确模仿教师模型的性能。通过对包括 6,684 个学生撰写的科学问题回答及其他数据集的测试，我们将性能与原始神经网络（NN）模型进行了比较，结果显示对于 7T 数据集，NN 模型和提炼的学生模型的准确率与教师模型相当；然而，其他数据集显示 NN 模型的准确率显著较低（平均 28%），然而我们的提炼模型仍然能够比 NN 模型获得更高 12% 的准确率。此外，学生模型的参数大小为 0.1M 至 0.02M，相较于原始输出模型大小减小了 100 倍和 10 倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。

Dec, 2023

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021