- 通过缩放进行自适应的本地方法
本文旨在将局部训练技术与自适应方法相结合,以开发高效的分布式学习方法,并通过训练神经网络实验验证了方法的性能。
- 基于数据相关随机特征的去中心化核岭回归
在去中心化的核岭回归中,为了保证节点之间的一致性,通常会对特征系数施加约束,但是在许多应用中,不同节点上的数据在数量或分布上存在显著差异,因此需要能够生成不同随机特征的自适应和数据相关方法。针对这个关键难题,本文提出了一种新的去中心化核岭回 - 保障自适应方法:巴基莱 - 波尔温法和其他步长选择的全局收敛
通过对于凸最小化问题的自适应方法的最新进展的利用,本文提供了一种无需线搜索的近端梯度下降框架,用于全局化收敛于流行的步长选择,如 Barzilai-Borwein 和一维 Anderson 加速。该框架可以处理梯度可微函数只具有局部 Hol - 去除平方根:AdaGrad 的新高效的尺度不变版本
本研究介绍了一种名为 KATE 的新型优化算法,它是 AdaGrad 算法的一个尺度不变适应版本。我们通过证明其在广义线性模型中具有尺度不变性,并利用数值实验比较 KATE 与 Adam 和 AdaGrad 算法在不同问题上的性能,包括图像 - MM长视频中高效的视频识别:在移动时观察
基于 “移动中观察” 新的识别范例,相比于传统的分阶段范例,以更高的效率融合粗粒度采样和细粒度识别的统一时空建模,并通过层次化机制高效捕获、推断长剪辑视频中的单位级和视频级时间语义,实现了新的视频时空建模效率与准确性的权衡。
- 基于随机泊松步长的本地自适应联邦学习
本文介绍了一种基于 Stochastic Polyak Stepsize 的联邦学习算法 FedSPS,该算法具有局部自适应性和近乎无参数,且可以达到与 FedAvg 相当的优化性能。
- Prodigy: 一种快速自适应且免参数的学习器
描述了两种技术,Prodigy 和 Resetting,来可靠地估计自适应方法中学习率的距离,从而优化学习率设置,并在多个基准数据集上测试了这些方法,结果表明其收敛速度有所提高。
- 一枚硬币的两面:未调节的 SGD 的局限性和自适应方法的威力
本文探讨了随机梯度下降法与多项式衰减步长之间的关系,并证明无调谐的随机梯度下降法具有渐进最优的收敛速率,但需要面临指数级的平滑度常数;而规范化 SGD、AMSGrad 和 AdaGrad 方法可以在不知道平滑度参数和随机梯度边界条件的情况下 - 在线增量学习中的快速适应:我们评估得正确吗?
本研究重新审视了评估在线连续学习算法的适应性常见实践,我们发现旧的度量方式是不可靠的,建议采用基于消除虚假相关性的近期样本准确率的新度量方式来解决这一问题,并使用大规模数据集上的基准测试表明,保留和重复使用过去所看到的信息可以实现更好的泛化 - 非平稳时间序列的矩方法移动估计自适应学生 t 分布
该研究讨论了如何使用移动估计器来适应非平稳的实际时间序列数据,并以学生 t - 分布为例进行演示,以获得在不同时间单位内的泰尔指数演变, 以概括市场的稳定性。
- 无损适应性:一种带有动量化、自适应、双平均随机梯度优化方法
引入了 MADGRAD 优化方法,其表现优异,不仅适用于视觉领域中的分类和图像转换任务,还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中,MADGRAD 的测试结果均优于 SGD 和 ADAM,并且在自适应方法通常表现差的问题上也表 - AAAI适应性梯度方法用于约束凸优化和变分不等式问题
本文提出了 AdaACSA、AdaAGD + 等新的自适应一阶优化算法,以加速受限制的凸优化问题中的收敛速度,同时针对平滑和不平滑函数,实现几乎最优的收敛速率;同时,通过自动调整每个坐标学习率,这些算法不需要固定事先知道目标函数的参数化,是 - 稀疏噪声数据下参数偏微分方程的深度学习
本文提出了一种新的框架,将神经网络、遗传算法和自适应方法相结合,应用于从稀疏噪声数据,不完整的备选库和空间或时间变化系数中发现偏微分方程。该方法在 Burgers 方程,对流扩散方程,波动方程和 KdV 方程上进行了测试,结果表明该方法对噪 - 自适应方法对注意力模型有什么好处?
本研究表明,一种重尾梯度噪声是 SGD 性能不佳的原因之一,而剪辑梯度可应用于 BERT 预训练和微调任务中,以提高性能。
- MMCNNs 在时间序列一维辐射检测数据中的应用
利用卷积神经网络 (CNN) 架构对时间序列伽马射线谱进行分类,以实现辐射检测系统对于安全或环境测量目的。瀑布图被解释为一幅单色图像,并采用标准基于图像的 CNN 技术,以发现数据中特征的时序方面。同时,将 CNN 架构和结果与传统技术进行 - 自适应梯度方法逃离鞍点
该论文研究了深度学习中广泛使用的自适应方法,如 Adam 和 RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的 SGD 算法更快地从鞍点逃脱,并且在总体上 - 超参数问题中最小权重范式模型不总是具有良好的泛化能力
通过实证发现,自适应方法在深度神经网络的训练中相比随机梯度下降可以有更好的泛化能力,需要较少的调整,同时不一定得到更小的权重范数。
- SAFFRON:一种用于在线控制误发现率的自适应算法
本文提出了一种称为 SAFFRON 的在线 FDR 控制的有效新框架,它可以基于新颖的估计方法对真空假设进行分配,并被证明比其非自适应方法更强大。
- MetaGrad: 在线学习中的多个学习率
介绍了 MetaGrad 方法,它是一种自适应方法,能够在多种凸函数子类中实现快速速率,该方法采用了倾斜指数权重主算法,可以同时考虑多个学习率,适用于指数凹和强凸函数,以及各种类型的随机和非随机函数。