- 一种用于随机双层优化的全一阶方法
本研究提出一种全一阶随机逼近方法用于解决双层无约束随机优化问题,该方法具有收敛性及优异的实际性能,并且可以使用动量辅助的梯度估计器进一步提高收敛速度。
- 多分辨率在线确定性退火:一种层次和渐进式学习架构
本研究提出了一种基于渐进分区多分辨率数据空间的多目标分层学习结构,能够通过两个时间量级的随机逼近算法来逐步增加学习架构的复杂性,获取任务下特定数据空间的最优划分。
- 随机逼近渐进学习的模拟退火优化
提出了一种基于退火优化和随机逼近的在线原型学习算法,可作为可解释和逐渐增长的竞争学习神经网络模型,用于监督,无监督和强化学习,并具有较小的超参数调整要求,预防局部极值和鲁棒性。
- ICML使用线性结构稳定 Q 学习,以实现证明有效的学习
本文讨论了 $Q$-learning 算法的不稳定性问题,提出了一种基于探索的改进方案。该算法通过结合二阶更新,目标网络等机制,实现了线性 MDPs 的最新遗憾界限,并且算法设计独立于时间步长。此外,该算法表现出一定的实例依赖性,并且在近似 - 非强凸最小二乘问题的加速随机梯度下降
本文提出了一种基于加速梯度下降的新随机逼近算法,该算法在非强凸情况下取得了最佳预测误差率,并在加速遗忘初始条件方面达到了最优效果,同时在算法的平均迭代次数和最终迭代次数上均提供了收敛结果,该算法还在无噪声环境下提供了一个匹配下界,展示了我们 - AAAISimSR: 一种用于深度强化学习的简单基于距离的状态表示方法
本研究探讨了如何使用深度强化学习方法从基于图像的观察中学习鲁棒和通用状态表示,并通过提出的 Simple State Representation (SimSR) 算子解决了现有工作中的计算复杂性,严格假设和表示塌缩挑战,实验结果表明我们的 - MM随机超梯度的收敛性质
本文研究了随机逼近方案的超梯度,提供了超梯度逼近的均方误差界限,并提供了数字实验来支持理论分析和展示在实践中使用随机超梯度的优势。
- 两时间尺度值基强化学习算法的样本复杂度界限
本文研究了基于价值的强化学习算法中,线性和非线性时间差分学习和贪婪梯度 Q 算法的两个时间尺度随机逼近的非渐进收敛速率和样本复杂度,并给出了最优的样本复杂度和最优化误差控制速率。
- 随机梯度下降法和随机重球法的几乎必然收敛速率
本文研究了随机梯度下降法和随机重球法在一般随机逼近问题上的收敛速度和最后迭代时的表现,证明了加权平均的迭代数的 收敛率,以及在非超参数区域内使用随机线性搜索和随机 Polyak 步进时的收敛性,并证明了最后一个重球的迭代收敛于极小化器,最后 - 机器学习中的自动微分数学模型
本文介绍了自动求导实现与非平滑函数导数求解之间的关系,提出了一种非平滑微积分方程,并阐明其在随机逼近方法中的应用,同时证明了算法求解导数可能产生的人工临界点问题,并演示了通常方法如何以概率为一避免这些点。
- MM无梯度方法求解鞍点问题
文章介绍了一种面向凸 - 凹鞍点问题的方法,使用梯度有限差分进行随机逼近,在某些条件下可以将所需的 oracle 调用次数降低至原来的 1/(log n)倍
- 时序差分学习是否最优?一种实例相关的分析
通过引入变量缩减形式的随机逼近,本研究提出了一种实例依赖的策略评估算法,并在非渐近条件下实现了优化性能,同时在理论上证明了其优越性。
- 蒙特卡罗和线性随机逼近的显式均方误差界
本文研究了受 Markov 扰动影响的递归方程的误差界限。研究显示,均方误差实现了参数估计的最优速率 $O (1/n)$,并获得了速率中的确切常数,这对算法设计非常有价值。
- 利用平滑凸包的随机逼近的有限样本分析
本文提出了一种基于广义 Moreau 信封的平滑 Lyapunov 函数方法,使用不同的步长展示了其在含噪声的固定点方程求解中的有限样本误差界,并将其应用于强化学习中的 V-trace 算法和 Q-learning,获得了现有最先进的结果, - 异步随机逼近与 Q 学习的有限时间分析
研究了一种异步随机逼近算法,并证明了在单轨迹上其有限时间收敛速率的上限,具体的将其应用到异步 Q-learning 中,得到了和同步 Q-learning 相同水平、优于先前已知的异步 Q-learning 的速率上限。
- 非线性随机逼近的有限样本分析及其在强化学习中的应用
研究了一种在 Markovian 噪声下的非线性随机逼近算法,证明了其具有不同学习速率的有限样本收敛界限,并证明了其适用于 Q-learning 算法。
- 平滑强凸函数的随机逼近:超越 $O (1/T)$ 收敛速度
利用凸性和平滑性同时优化了随机逼近的收敛速度,并构建了高效的随机算法来达到风险界限。
- 一种适用于嵌套随机优化的单时间尺度随机逼近方法
研究了一个名为 NASA 的算法,在约束嵌套随机优化问题中,通过估计梯度来找到近似的稳定点,并使用特殊 Lyapunov 函数证明了该算法的样本复杂度为 O (1/ε²),同时提出了简化版 NASA 算法来解决约束单层随机优化问题。
- 非光滑随机逼近分析:微分包含方法
本文研究了非凸、非光滑情况下随机逼近的收敛性,提出了一种基于极限均值的收敛方法并推导了相应的微分包含形式,为证明无约束和约束随机逼近问题的收敛性提供了一般框架,尤其适合于深度学习和低维度高稀疏性统计推断中随机次梯度算法的收敛性分析。
- 黎曼流形上的随机逼近
将随机逼近(SA)的标准理论扩展到约束集为黎曼流形的情况。具体来说,使用收缩映射将用于分析 SA 方案的标准 ODE 方法扩展到约束在流形上的迭代。此外,针对欧几里得空间的子流形,开发了一种具有近似收缩的投影 SA 方案的框架。该框架还扩展