使用 DeepJet 进行喷注物味道分类
利用知识蒸馏提高学生模型对大型强子对撞机上轰击粒子分类任务的性能,并通过使用具有洛伦兹对称的强归纳偏差的教师模型,引入相同的归纳偏差以提高模型的鲁棒性
Nov, 2023
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
Apr, 2021
本文提出了基于深度神经网络的系统聚类方法及分类法,并通过案例研究证明该分类法可用于创造新的聚类方法以克服其个别限制,而实验结果表明该方法能够达到甚至超过现有最高的聚类质量。
Jan, 2018
这篇论文介绍了一种用蒸馏过程从大型模型中训练出的卷积学生架构,它可以实现 300 倍的推理加速和 39 倍的参数减少,有时学生模型的性能甚至超过了它的老师模型。
Sep, 2019
本文介绍了一种新的基于 VDCNN 的文本处理体系结构,通过使用 29 个卷积层,仅使用小型卷积和池化操作,该模型的性能得到了提高,并且在多个公共文本分类任务上,相对于现有模型,且在文本处理中使用非常深的卷积神经网络实现了最先进水平。
Jun, 2016
本文通过使用不同的深度神经网络模型,包括 TextCNN、Bi-GRU-LSTM-CNN 和 Bi-GRU-CNN 以及各种预训练的单词嵌入来研究职业预测。此外,我们还提出了一个简单有效的组合模型。实验结果表明,我们的提出的组合模型取得了最高的 F1 分数为 72.71%。
Dec, 2019
本文旨在通过将深度神经网络 (LSTM) 模型的知识提取到基于卷积神经网络 (CNN) 的模型中,来降低自然语言识别任务(如文本分类)中的推理时间,以实现模型的简化、压缩和加速。
Aug, 2022
该研究提出了一种基于深度学习的解决方案,用于解决单类分类中的特征学习问题,通过两个损失函数和并行 CNN 架构生成描述性特征,并在模板匹配框架下进行了广泛的实验。结果表明,该方法在异常检测、新颖性检测和移动设备上的活动认证数据集上都有显著进展。
Jan, 2018
本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏,追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益,并在多个序列标记数据集上展现了新的卓越表现,证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。
Feb, 2023