研究了 top-k 运算在使用算法实现后无法通过梯度下降算法从端到端训练的问题,提出了基于最优输运的平滑近似 SOFT top-k operator,并在 k 最近邻居和 Beam Search 算法中应用,改善了性能。
Feb, 2020
本文提出了一种基于不可微排列和排名的可微的 top-k 交叉熵分类损失函数,用于多个 k 的同时优化模型,较之前的单一 k 优化得到更好的 top-5 准确率并改善了 top-1 准确率,通过对先前在 ImageNet 数据集上公布的模型进行微调,实现了这些模型的新的最先进结果。
Jun, 2022
本文研究了基于 Top-k 稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的 Top-k 算子收敛性分析方法,并开发了一种 GPU 上高效的 Top-k 选取算法,提高了 TopK-SGD 的计算效率。
Nov, 2019
论文研究了深度神经网络中 Top-k 分类任务的性能评估方法,提出了一族平滑损失函数,与交叉熵类似但更适用于 Top-k 优化,其中一种基于边界的新型损失函数在处理噪声和数据大小等多种情况下比交叉熵更有鲁棒性。
Feb, 2018
该论文研究了使用 Top-k SGD 方法减少通信流量来提高深度学习模型在多 GPU 下的训练性能,但是因为在 GPU 上进行梯度排序效率低下,所以该方法具有局限性,提出未来工作的高性能梯度稀疏化方法。
Sep, 2022
通过定义损失函数和构建高斯混合专家模型,我们从密度和参数估计的角度对顶部 K 个稀疏 Softmax 门控函数进行理论研究,发现要保证密度估计的收敛,所选取的门控函数所包含的专家数量至少必须超过与真实参数相关的某些 Voronoi 单元总基数,并且由于 Softmax 门控和专家函数之间的内在相互作用,参数估计速度明显变慢。
Sep, 2023
本文主要研究大规模图像分类基准测试中常用的 top-k 误差评估方法,探索单标签多分类方法的优化算法及其在 top-k 误差上的表现,提出了多种 top-k 损失函数进行性能改进,并探索了从多分类到多标签学习的转变,同时提出了高效的算法实现。
Dec, 2016
文章提出了一种名为自适应 softmax 的算法,采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度,并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定,能够在保证高精度的同时显著提高计算速度。
Sep, 2016
该论文提出了一种基于 softmax 和多类别 SVM 损失函数的新的 top-k 损失函数,并且进行了实验性的对比研究,结果表明这些新的损失函数的表现通常优于 softmax 函数,尤其是在速度方面具有优势。
Dec, 2015
本文提出了一种新的稀疏操作符:随机 Top-k 操作符,用于估计梯度稀疏性,将其与随机化坐标下降操作符结合,可降低 SVRG 和 SpiderBoost 方法的计算复杂度。实验证明该方法在各种模型和任务中的表现优于 SpiderBoost。
Jan, 2020