使用代理目标扩展集成分布蒸馏到多类问题

May, 2021

使用代理目标扩展集成分布蒸馏到多类问题

Scaling Ensemble Distribution Distillation to Many Classes with Proxy Targets

Max Ryabinin, Andrey Malinin, Mark Gales

TL;DR这篇论文提出了一种称为 “Ensemble Distribution Distillation” 的机器学习方法，通过训练 Dirichlet 分布来捕捉整个集成预测和不确定性估计。为了解决在大规模任务中 Dirichlet log-likelihood 的梯度问题，作者提出了一种新的训练目标来最小化 Ensemble Distribution Distillation 的反向 KL 散度，从而在 ImageNet 和 WMT17 En-De 数据集上展示了它的优越性。

Abstract

Ensembles of machine learning models yield improved system performance as well as robust and interpretable uncertainty estimates; however, their inference costs may often be prohibitively high. \emph{Ensemble Dis

ensemble distribution distillation machine learning uncertainty estimates dirichlet distribution training objective

发现论文，激发创造

集成分布蒸馏的通用框架

通过构建神经网络集成，可以更好地进行预测和不确定性估计，并将不确定性分解为数据不确定性和模型不确定性。本文提出了一种保持神经网络集成分解性质的蒸馏框架，其预测性能与标准蒸馏相当。

Feb, 2020

组合分布蒸馏

该论文提出了一种名为 EnD^2 的新方法，它使用 Prior Networks 对模型的输出分布进行建模，并使单个模型保留了集成模型减少计算成本和提高分类性能的同时，还能保留集合多样性的信息，用于估计不确定性。该方法不仅可适用于人工数据集，还取得了在 CIFAR-10、CIFAR-100 和 TinyImageNet 数据集上优于其他方法的成果。

Apr, 2019

基于逻辑回归的集成分布蒸馏用于鲁棒性自回归序列不确定性

本研究考察了在大规模自然语言序列到序列数据中应用 Ensemble Distribution Distillation （EDD）来压缩昂贵的集成模型的优越性能为成本较低的单一模型的有效性，既能够分离知识（认识不一致性）和数据（随机数据）不确定性，还能解决大词汇量数据的复杂性，并在非分布式检测中表现出色。

May, 2023

结构化预测的集成蒸馏：校准、准确、快速 - 选择三项

研究了集成蒸馏作为一个通用框架，以产生良好校准的结构化预测模型，同时避免在推断时集成蒸馏的代价，本文对其在两个任务上进行了验证：命名实体识别和机器翻译。我们发现，在这两个任务中，集成蒸馏产生的模型保留了集成的性能和校准优势，而且只需要在测试时使用单个模型。

Oct, 2020

自我分布蒸馏：高效的不确定性估计

本研究提出了一种新颖的训练方法 S2D，它可以有效地训练出一个单一模型以估算不确定性，也可以构建这些模型的集合并应用分层集成蒸馏方法，结果显示 S2D 模型优于标准模型和 Monte-Carlo Dropout，甚至连标准深度集成都能被 S2D 集成和新型蒸馏模型超越。另外还进行了 LSUN、Tiny ImageNet 和 SVHN 的外分布检测实验。

Mar, 2022

在线蒸馏实现的大规模分布式神经网络训练

本文介绍了一种相对简单易用的基于在线蒸馏的神经网络训练优化方法，该方法使得我们能够在使用大规模数据集时提升模型精度并提高训练速度，同时在成本较低的情况下显著提高模型的预测可复现性。

Apr, 2018

从集成学习中学习时，多样性非常重要

通过对集成方法进行扰动，可以增加模型多样性并提升性能。

Oct, 2021

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

统一而有效的集成知识蒸馏

本文提出了一种有效的集成知识蒸馏方法，该方法能够从多个教师模型学习未标记数据的知识，并据此训练单个学生模型。研究表明，通过考虑不同教师之间的预测差异以及样本难度，可以进一步提高蒸馏的效果。

Apr, 2022

组分布稳健数据集蒸馏及风险最小化

通过结合聚类和风险度量的最小化算法，实现数据集精炼，具备对子群体的有效泛化和稳健性，为解决合成数据集在面对低人口密度地区样本时表现优秀的问题提供了理论依据和数值实验验证。

Feb, 2024