- 预训练模型知识蒸馏的实用洞见
通过对知识蒸馏 (KD) 技术的综合比较研究,本文填补了目前研究中的空白,揭示了在协作与联邦学习框架中利用预训练模型中的知识蒸馏技术的最佳超参数设置,通过降低通信回合和加速训练过程,提高模型性能的实用框架。
- AAAI超快速:表格数据的即时分类
HyperFast 是一个元训练的超网络,用于在单次前向传递中为表格数据的即时分类生成特定任务的神经网络,消除了模型训练的需求。HyperFast 在 OpenML 和基因组数据上进行了大量实验,并与竞争的表格数据神经网络、传统机器学习方法 - 在线机器学习中的超参数调整简化 -- spotRiverGUI
批量机器学习在处理大量流数据时存在困难,但在线机器学习是一种解决批量机器学习限制的替代方法。river 和 spotRiver 是 Python 中的两个在线学习库,提供了分类、回归、聚类、异常检测等多种在线学习算法,并通过 spotRiv - 免调节的随机优化
大规模机器学习问题中,通过松散提示参数信息,提出了能够自动调整的 “无需调参” 的算法,能够与最优调参优化算法在多对数因子上实现性能匹配,特别是对于有界优化领域,证明了这种匹配是可能的,并且多个现有算法已经实现了该特性。然而,在无界领域中, - 基于 LLMs 时代的解码方法全面研究
该研究通过全面而多方位的分析,评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度,发现解码方法的性能与任务相关,并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参 - ICLR大型语言模型用于增强贝叶斯优化
LLAMBO 是一种将大型语言模型(LLM)与贝叶斯优化(BO)结合的方法,通过在自然语言中提出有前景的解决方案,利用上下文理解、少样本学习能力和 LLM 的领域知识来增强基于模型的 BO 的各个组件,特别是在稀疏的观测阶段,LLAMBO - 仅使用延迟输入进行物理库计算的高效优化
通过使用光电装置验证了一种最近提出的储层计算优化技术的实验。储层计算是一种强大的信号处理应用框架,而高效优化方法的发展仍是一个关键挑战。我们的技术仅利用输入信号的延迟版本来识别储层的最佳操作区域,简化了传统耗时的超参数调整任务。我们验证了这 - CoVO-MPC:采样模型预测控制和最优协方差设计的理论分析
Sampling-based Model Predictive Control (MPC) 在许多领域中具有实际和有效的方法,尤其是基于模型的强化学习,由于其灵活性和可并行化性。本文对一种广泛使用的基于采样的 MPC 方法,Model Pr - 针对大型语言模型的前沿分布式训练优化
通过实验结果和超参数调整,我们提出了一套用于大型语言模型的分布式训练策略。
- 通过贝叶斯优化改进 Azure 认知搜索的搜索相关性
提出一种新的方法来找到最佳的 Azure Cognitive Search 配置,从而提高特定用例的搜索相关性,并通过将搜索相关性问题制定为超参数调整来改善关键的在线市场指标。
- 通过联邦学习增强车联网中的入侵检测
本文提出了一个基于联邦学习的入侵检测框架,通过使用 CIC-IDS 2017 数据集,在 Internet of Vehicles (IOV) 中实现去中心化机器学习,采用 SMOTE 来处理类别不平衡,异常观测值检测来识别和移除异常观测值 - 梯度下降的非均匀平滑性
该研究介绍了一种局部一阶平滑性 oracle(LFSO),可以用于调整梯度下降方法的步长,从而改善全局和局部收敛性。通过应用 LFSO 于修正的一阶方法,可以在非强凸问题中实现全局线性收敛速度,从而提高了一般(加速)一阶方法的收敛率下界。
- 学习优化器的扩展是否值得?评估 VeLO 的价值 4000 TPU 月
通过分析 VeLO(通用学习优化器)的训练效果,我们发现其具有关键的超参数调整问题,不一定能比其他竞争对手更好地找到解决方案,并且在降低训练损失方面也不一定比其他优化器更快。这些观察结果对 VeLO 的广泛应用和培训投资的价值提出了质疑。
- 因果结构学习算法对超参数选择的稳健性
该研究论文探讨了超参数对因果结构学习任务的影响,并对不同复杂度的数据集上的一些经典学习算法的超参数选择进行了实证评估。研究发现,在集成设置下,超参数选择强烈影响算法的选择,选择不当的超参数可能导致分析人员使用无法为其数据提供最先进性能的算法 - 通过动力系统洞察实现超参数无关的深度神经网络训练
我们提出了一种专门用于深度神经网络(DNNs)的随机一阶优化方法 ECCO-DNN,该方法将优化变量轨迹建模为动力系统,并开发了一种离散化算法,根据轨迹的形状自适应选择步长。该方法提供了两个关键启示:快速连续时间收敛的动力系统设计和根据数值 - 人工神经网络中的特征选择和超参数优化用于木材质量分类
通过调整神经网络的超参数及选择更好地描述木板质量的特征来同时解决特征选择和超参数调整问题,对于工业应用来说,至少其中一种方法应被考虑。
- EMNLP一对所有 & 所有对一:使用模型平均绕过超参数调整进行跨语言迁移
基于不同运行模型的累积逐渐平均,提升零样本跨语言转移(ZS-XLT)性能,与目标语言验证性能基于模型选择有密切相关。
- 差分隐私学习中的在线敏感性优化
通过将剪切阈值视为可学习参数,我们提出了一种新的方法来动态优化差分隐私机器学习模型的训练过程,从而在不牺牲整体隐私分析的情况下,在各种评估场景中展现出与传统方法相媲美甚至更好的性能。
- 残差网络中的深度超参数转移:动态和尺度限制
使用深度学习调参中的参数化方法,研究残差网络的超参数如何在不同宽度和深度的网络中传递,并证明实验和理论结果的一致性。
- 核密度积分变换
该论文提出使用核密度积分变换作为特征预处理步骤,可以替代传统的特征预处理方法,并在机器学习和统计方法中表现出更好的鲁棒性和性能。