- 为什么要进行平面搜索而不是线搜索?SO 友好的神经网络允许对每一层进行每次迭代的学习速率和动量率优化
介绍了 SO 友好型神经网络的类别,其中包括实际中使用的几种模型,包括具有 2 层隐藏权重的网络,输入数量大于输出数量。SO 友好型网络具有在每次迭代中执行精确的线性搜索来设置步长的性质,在完全批处理训练期间具有与使用固定学习相同的渐进成本 - 值为基础的深度强化学习中超参数选择的一致性
深度强化学习在各个领域取得了巨大的成功,本文通过算法设计和精心选择超参数的结合实现了算法的改进,重要超参数的选择对性能有很大的影响,本文通过广泛的实证研究,引入了一个新的指标来确定各种超参数的一致性和可靠性,并明确了在不同的训练模式下仍然保 - 通过协同作用的主动学习和模型选择探索测试时间人机协作适应性
本研究提出了一种基于主动学习和模型选择的人在环测试时间自适应方法,通过选择具有信息量的样本进行标记并使用已标记的数据选择最优超参数,实验结果表明该方法在 4 个测试时间自适应数据集上优于最先进的方法和基于流的主动学习方法。
- 动态专家混合:高效 Transformer 模型的自动调优方法
通过引入动态的专家混合技术(DynMoE),我们的方法在视觉、语言和视觉 - 语言任务中取得了竞争性能,同时通过激活更少的参数来保持效率。
- 利用反向对齐特征更新引导深度特征学习
通过研究深度学习和超参数对特征学习的影响,本文提出了特征更新与反向传播之间的对齐概念,并研究了随机初始化下的对齐、ReLU MLPs 和 ResNets 的特性。
- Adam 算法在无界梯度和仿射方差噪声下的高概率收敛性
研究了自适应矩估计算法(Adam)在无约束非凸平滑随机优化中的收敛性,证明了 Adam 能够在很高的概率下以 $O (poly (log T)/√T)$ 的速率收敛到稳定点,不需要任何有界梯度假设和问题相关的先验知识来调整超参数,同时还研究 - 公私梯度耦合可证明地改善优化
通过优化公共数据和私有数据的梯度加权线性组合,本研究分析了梯度联合的最佳权重和超参数对于非凸损失函数收敛性的加速及对语言和视觉基准的影响,为梯度联合的最优权重选择提供了指导。
- AdaPlus: 将 Nesterov 动量和精确的步长调整与 AdamW 基础相结合
该研究提出了一种称为 AdaPlus 的高效优化器,它在 AdamW 基础上集成了 Nesterov 动量和精确的步长调整,结合了 AdamW、Nadam 和 AdaBelief 的优点,并且不引入任何额外的超参数。经过广泛的实验证明了 A - MOPO-LSI:用户指南
MOPO-LSI 是一个开源的多目标投资组合优化库,提供版本 1.0 的用户指南,包括问题设置、工作流程和配置中的超参数。
- 预测 Grokking 早期发生:深入探究 grok 模型的损失景观
本文提出了一种低成本的方法,通过学习神经网络早期的学习曲线来预测是否会出现后期的 grokking 现象,并使用傅里叶变换来量化低频分量的幅度以检测这种振荡现象。
- 基于方差保持的插值扩散模型用于语音增强
本研究的目标是实现扩散模型用于语音增强,介绍了基于方差保持的插值扩散和方差爆炸的插值扩散的框架,以及改进扩散模型的方法,并在公共基准中评估了该模型的性能
- 基于预训练 ASR 模型的低资源语音转文本翻译策略
本文提出了改进低资源语音转文本翻译性能的技术和发现,实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化,CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验,确定了对改进低资源设置最有贡献的各种因素(初始化、目 - 正则化在尖锐度感知极小化中的关键作用
本研究探讨了 Sharpness-Aware Minimization (SAM) 优化算法中 normalization 组件对于优化效果的影响,发现它在稳定算法和漂移的最小值连续谱上都发挥着重要作用,这使得 SAM 算法具有很好的鲁棒性 - ICLR通过聚合解决无监督域自适应中的参数选择问题
该论文研究了在无监督领域适应问题中选择算法超参数的方法,并针对此提出了一种基于加权最小二乘法的向量值函数扩展算法,该算法的目标错误渐进地不劣于未知最优聚合的两倍。并在各种数据集(包括文本、图像、脑电波、身体传感器信号和手机信号)上进行了大规 - 强化学习中的经验设计
本文旨在提出在强化学习中进行良好实验的方法,并强调常见错误和潜在统计结果,覆盖了如何对性能进行妥善表征、假设检验、比较多个代理、基准和说明性例子的构建、如何处理超参数和实验偏差等等,旨在通过充分利用计算资源来进行良好的实证研究。
- 无监督跨语言分词的自调参数
该研究探讨了对于英语、俄语和汉语的无监督分词问题可行的元学习方法,通过实现基于不同人类独立健身函数的元学习方法以及三个度量的加性和乘性组合来测试不同语言的无监督分词模型并找到了适合每种语言的最佳设置。
- 神经网络剪枝状态为何如此混乱?关于公平性,比较设置和网络剪枝中的可训练性
本文解释了神经网络剪枝的两个迷团:更大的微调学习率的性能提升效应和继承预训练权重在滤波剪枝中没有价值的论点,并强调了网络可训练性在剪枝中的核心作用。同时提出关于如何校准剪枝基准的具体建议。
- ProSiT!使用渐进相似度阈值进行潜变量发现
提出了一种比主题模型和聚类方法更灵活、确定性和解释性更好的方法 PROgressive SImilarity Thresholds(ProSiT),它可以自动找到最佳的潜在维度,并在四个基准数据集上成功地证明了它的效果。
- 帕累托测试在有效控制多重风险方面的应用
本文提出了一种多目标优化的方法 Pareto Testing,通过结合多目标优化和多假设检验,构建了一组有前途的 Pareto Frontier,并将统计检验应用于这个 Pareto Frontier,用以同时控制和优化各种准确性和成本指标 - 语义分割的无监督域自适应重新思考
该论文研究了利用少量标记数据来对无监督领域适应(UDA)进行数据中心性思考,并探究了如何优选经典的 UDA 方法的超参数和使用少量标记数据进行微调的效果。