顺序减半 Top-k 运算符

Oct, 2020

Successive Halving Top-k Operator

Michał Pietruszka, Łukasz Borchmann, Filip Graliński

TL;DR提出一种可微的逐步减半方法来放松排名算子，通过使用锦标赛式选择来避免对得分向量进行 softmax 的迭代，从而实现了比以前更低的计算成本下的 top-k 更好的近似。

Abstract

We propose a differentiable successive halving method of relaxing the top-k operator, rendering gradient-based optimization possible. The

differentiable successive halving top-k operator approximation gradient-based optimization

发现论文，激发创造

带有最优传输的可微 Top-k 操作符

研究了 top-k 运算在使用算法实现后无法通过梯度下降算法从端到端训练的问题，提出了基于最优输运的平滑近似 SOFT top-k operator，并在 k 最近邻居和 Beam Search 算法中应用，改善了性能。

Feb, 2020

可微 Top-k 分类学习

本文提出了一种基于不可微排列和排名的可微的 top-k 交叉熵分类损失函数，用于多个 k 的同时优化模型，较之前的单一 k 优化得到更好的 top-5 准确率并改善了 top-1 准确率，通过对先前在 ImageNet 数据集上公布的模型进行微调，实现了这些模型的新的最先进结果。

Jun, 2022

分布式深度学习中 Top-k 稀疏化的理解

本文研究了基于 Top-k 稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题，通过实验和理论推导，提出了更为准确的 Top-k 算子收敛性分析方法，并开发了一种 GPU 上高效的 Top-k 选取算法，提高了 TopK-SGD 的计算效率。

Nov, 2019

深度 Top-k 分类的平滑损失函数

论文研究了深度神经网络中 Top-k 分类任务的性能评估方法，提出了一族平滑损失函数，与交叉熵类似但更适用于 Top-k 优化，其中一种基于边界的新型损失函数在处理噪声和数据大小等多种情况下比交叉熵更有鲁棒性。

Feb, 2018

超级计算环境中分布式深度学习的 Top-k 梯度稀疏化实证分析

该论文研究了使用 Top-k SGD 方法减少通信流量来提高深度学习模型在多 GPU 下的训练性能，但是因为在 GPU 上进行梯度排序效率低下，所以该方法具有局限性，提出未来工作的高性能梯度稀疏化方法。

Sep, 2022

基于统计的 Top-K 稀疏 Softmax 门控混合专家

通过定义损失函数和构建高斯混合专家模型，我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究，发现要保证密度估计的收敛，所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基数，并且由于 Softmax 门控和专家函数之间的内在相互作用，参数估计速度明显变慢。

Sep, 2023

多类别、前 K、多标签分类的损失函数分析与优化

本文主要研究大规模图像分类基准测试中常用的 top-k 误差评估方法，探索单标签多分类方法的优化算法及其在 top-k 误差上的表现，提出了多种 top-k 损失函数进行性能改进，并探索了从多分类到多标签学习的转变，同时提出了高效的算法实现。

Dec, 2016

GPU 上高效的 softmax 近似算法

文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Sep, 2016

Top-k 误差的损失函数：分析与洞见

该论文提出了一种基于 softmax 和多类别 SVM 损失函数的新的 top-k 损失函数，并且进行了实验性的对比研究，结果表明这些新的损失函数的表现通常优于 softmax 函数，尤其是在速度方面具有优势。

Dec, 2015

稀疏梯度的方差减少

本文提出了一种新的稀疏操作符：随机 Top-k 操作符，用于估计梯度稀疏性，将其与随机化坐标下降操作符结合，可降低 SVRG 和 SpiderBoost 方法的计算复杂度。实验证明该方法在各种模型和任务中的表现优于 SpiderBoost。

Jan, 2020