- 加速超参数搜索的数据集压缩
本文提出了一种针对超参数搜索的新型超参数校准数据集压缩(HCDC)算法,通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集,实验证明该框架有效地维持了模型的验证性能排名,并加速了基于图像和图形的超参数 - 将超参数搜索集成到 GramML 中
提出了 GramML 的扩展方法,支持更大的搜索空间,包括超参数搜索,通过 OpenML 基准测试发现与其他最新技术相比有显著的改进。
- 用于超参数搜索的多目标牛顿优化算法
本研究提出了一种基于牛顿法的多目标优化算法,用于超参数搜索。通过有限差分法计算一阶偏导数(梯度),形成矢量化梯度矩阵以进行快速计算。使用牛顿 - 拉夫逊迭代解更新模型参数,并引入正则化项来消除奇异性问题。该算法应用于卷积神经网络多类目标检测 - 探索超参数空间中的图像扩散模型用于超声心动图生成
本研究通过对超参数进行广泛搜索,对超声心动图生成中的图像扩散模型进行了深入研究,旨在为超声影像和视频生成领域建立基准,并提供指南。通过采用先进的模型架构和训练方法,研究分析了真实样本和生成样本之间的分布差异,并提出了解决方案,对于在生成数据 - Weight Compander:一种用于正则化的简单权值重新参数化方法
介绍了一种名为权重压缩器的新方法,用于重新参数化深度神经网络的每个权重,从而提高其泛化能力;该方法通过限制权重大小来隐式减少过拟合,同时强制权重远离零,以促进更多特征的提取并增加权重冗余,从而使网络对测试数据的统计差异不那么敏感。
- 无需重新搜索的研究:最大更新参数化在各个尺度上实现准确的损失预测
本研究提出了一种新的解决大规模语言模型研究验证成本高的问题的范式,通过发现 Maximal Update parametrization(muP)可以使超参数的缩放定律精确拟合,并允许在训练开始之前使用损失预测直接比较不同模型。
- ICML高效训练序列的知识蒸馏
本篇研究探讨了如何通过知识蒸馏技术,减少重新训练模型所需时间和计算成本,实验结果表明,在保证准确率的前提下,通过蒸馏前一次迭代的模型来优化后续的模型,是一种可行的对模型训练耗时和费用成本的优化方法。
- 通过网络规范化和超参数搜索优化解释
该论文提出了针对流行的深度神经网络结构,包括 VGG、ResNet、EfficientNet、DenseNets 和 Relation Networks 的模型规范化方法,并建立了一个 XAI 评价框架,用于量化和比较模型规范化对各种 XA - 基于卷积组合的小样本缺陷检测技术
本文提出了一种使用多个预训练卷积模型作为骨干的 few-shot 分类新方法,使用新颖的集成技术提高了准确性,同时大大减少了总参数数量,实现了实时检测,通过强调超参数搜索,该模型在竞争标准中超越了现有的最先进方法,取得了 92.30%的 5 - ICML一种用于重复 HPO 和 NAS 问题的资源有效方法
本文介绍了一种通过使用 Successive Halving,结合上一次搜索中获得的信息,从而减少计算成本、保持准确度和对负迁移具有鲁棒性的超参数和神经网络结构的重复搜索策略,提出了新的迁移学习基线,显著简化了现有的迁移学习方法。
- ECCV使用多任务高斯过程查找非均匀量化方案
本文提出了一种新的神经网络量化方法,将神经架构搜索问题视为超参数搜索来查找 CNN 各层的非均匀位分布,并通过多任务高斯过程先验来执行搜索。研究表明,通过在最后几层中采用显著较低的精度,可以实现最小的准确度损失并显著节省存储器。作者在使用 - KDD离线化:针对核聚类的快速高效超参数搜索
本文研究核参数对核 $k$-means 聚类算法的影响,给出一下 RBF 核参数下界,建议使用基于快速近似指数函数的算法进行参数搜索,并提供了一种高效实现方法。实验结果证明了该方法能够有效地揭示一组丰富而有用的超参数值。
- HyperSched: 基于截止日期的模型开发动态资源重新分配
HyperSched 是一种动态应用程序级资源调度器,用于在超参数搜索中跟踪、识别并优先分配资源以最大化准确性,并利用试验耗尽性、逐渐可辨认的排名以及时空限制等三个特性,优于标准超参数搜索算法。
- ICML分布式模型选择和训练研究平台 Tune
Tune 是一个机器学习模型选择和训练的统一框架,提供训练脚本和搜索算法之间的窄腰接口,适合于多种超参数搜索算法、可以方便地扩展到大型集群并简化算法实现。
- 机器学习中的超参数搜索
本文介绍了机器学习领域中的超参数搜索问题,并从优化的角度讨论了其主要挑战。大多数通用的学习算法包含一组必须在训练开始前确定的超参数,其选择会对结果模型的性能产生重大影响,本文提出了一个有纪律、基于理论的搜索策略是至关重要的。