关键词stochastic approximation
搜索结果 - 54
- 学习控制未知强单调博弈
我们提出了一种简单的算法,通过在线调整受控系数来学习将博弈的纳什均衡点转移到符合线性约束,而不需要知道奖励函数或行动集,从而提供具有概率 1 保证的收敛性以满足目标线性约束的纳什均衡集合,并为该算法提供了均方收敛速度为 O (t^{-1/4 - 大规模双层优化的内存高效梯度展开
本文介绍了 $(ext {FG})^2 ext {U}$,一种解决大规模双层优化问题的新方法,该方法通过无偏随机近似元梯度来提供更准确的梯度估计,并且支持并行计算以提高计算效率。$(ext {FG})^2 ext {U}$ 在不同阶段的训练 - 优化确定性等价风险估计的集中界
我们研究了独立同分布样本估计优化确定等价风险的问题,推导了经典的样本平均逼近法以及基于随机逼近的 OCE 估计器的均方误差和集中界限,并在风险感知赌博问题中应用所得到的界限,推导了误判概率的界限,并最终进行了数值实验证实理论发现。
- ICML变分薛定谔扩散模型
提出了变分薛定谔扩散模型 (VSDM),利用变分推理线性化薛定谔桥前向评分函数,实现了无需模拟的训练过程,可用于优化传输计划中的扩散模型。VSDM 在模拟实验中表现出对非各向异性形状的高效生成能力,并产生了相较于单变量扩散更直线的样本轨迹。 - DASA:延迟自适应多智能体随机逼近
我们提出了一种延迟自适应的算法 exttt {DASA},在多智能体随机逼近中实现了收敛速度的 $N$ 倍加速,同时仅依赖于混合时间 $ mix$ 和平均延迟 $ au_{avg}$,这一结果领先于现有研究。
- 基于随机逼近的联邦机器学习方法
本论文研究了在随机逼近框架中的联邦学习(FL)。FL 是一种协作方式,可以在各个参与方或客户端之间训练神经网络模型,而不需要将它们的数据集中。每个客户端将在其相应数据上训练模型,并定期将权重发送至服务器进行聚合。服务器聚合这些权重,由客户端 - 具有延迟更新的随机逼近:马尔科夫采样下的有限时间收敛速率
基于大规模和多智能体强化学习的应用,我们研究了在马尔可夫采样下具有延迟更新的随机逼近(SA)方案的非渐近性能。我们首先表明,在时间变化的有界延迟下,延迟的 SA 更新规则保证了 “最后迭代” 指数级快速收敛到 SA 操作符固定点周围的球体。 - 常步尺度 Q - 学习:分布收敛、偏差和推广
通过将常步长 Q 学习与时间齐次马尔可夫链连接,在 Wasserstein 距离中展示了迭代的分布收敛性,建立了其指数收敛速度;我们还为 Q 学习迭代建立了中心极限定理,证明了平均迭代的渐近正态性;此外,我们提供了对步长渐近偏差的显式扩展, - 快速非线性两时间刻度随机逼近:达到 O (1/k) 有限样本复杂度
提出了一种新的两时间尺度随机逼近方法,用于找到两个耦合非线性操作符的根,仅假定可以观察到这些操作符的噪声样本,并通过经典的 Ruppert-Polyak 平均技术动态估计操作符的样本,将所估计的平均步骤值用于两时间尺度随机逼近更新以找到所需 - 具有马尔科夫噪声的双时间尺度随机逼近的中心极限定理:理论与应用
通过中心极限定理对双时间尺度随机逼近(TTSA)在受控马尔可夫噪声下进行了深入的渐近分析,揭示了受底层马尔可夫链影响的 TTSA 的耦合动态,从而扩展了其应用范围,并结合应用结果推断了使用马尔可夫样本的 GTD 算法的统计性质和渐近性能。
- 应用 ODE 方法的随机逼近和强化学习在马尔可夫噪音中
扩展 Borkar-Meyn 定理以适用于具有线性函数逼近和资格痕迹的离策略强化学习算法,分析随机逼近算法的稳定性和马尔可夫噪声条件下的边界性。
- 具有马尔可夫噪声的双时间尺度线性随机逼近的紧限定时间界
用马尔可夫噪声对线性二时间尺度随机逼近算法进行了收敛性分析,得到了该算法各种步长选择下的收敛行为,应用结果到 TDC 算法得到了比之前工作更好的收敛性样本复杂度,该结果还适用于确定各种强化学习算法的收敛行为,如带有 Polyak 平均的 T - 随机逼近的收敛速度:有偏差噪声与无界方差,及其应用
该研究论文主要讨论了随机逼近算法在嘈杂测量、凸凹优化、强化学习以及马尔可夫逼近方面的应用,并且扩展了该算法以包含具有非零条件均值和 / 或无界条件方差的错误,从而证明了算法在这些情况下的收敛性,并计算了 “优化步长序列” 以最大化估计的收敛 - 基于正则化斯坦距离的神经算子变分推断用于深高斯过程
我们引入神经操作变分推断(NOVI)用于深度高斯过程,使用神经生成器获得采样器,并通过最小化 L2 空间中生成分布和真实后验之间的正则化 Stein 差异解决挑战。我们使用 Monte Carlo 估计和子抽样随机优化技术求解极小极大问题。 - Q-learning 设计与乐观性的稳定性
该论文介绍了 Q-learning 在强化学习工具中的重要性,提供了随机逼近和 Q-learning 的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题,以及设计了一 - 具有本地超梯度估计的联邦多序列随机逼近
通过开发 FedMSA,我们着手开展了 Federated Stochastic Approximation With Multiple Coupled Sequences (MSA) 的算法问题,该算法问题被广泛应用于机器学习,并且在 B - 可分离随机逼近框架下的在线学习
我们提出了一个基于分离随机逼近框架的在线学习算法,其中对于某些具有线性特性的模型参数,我们采用递归最小二乘(RLS)算法进行更新,然后根据更新后的线性参数,采用随机梯度法(SGD)更新非线性参数,该算法可以理解为一种随机逼近版块坐标梯度下降 - 强化学习教程介绍
本文介绍了强化学习的概念,重点讲述了随机逼近在其中的作用。文中涵盖了马尔可夫奖励过程、马尔可夫决策过程、随机逼近算法以及广泛使用的算法如时序差分学习和 Q 学习。
- 凸多阶段随机优化的数值方法
本文研究了在随机环境中涉及顺序决策的优化问题,主要集中于随机规划和随机最优控制建模方法,通过切割平面逼近和随机逼近类型的方法,有效解决了传统动态规划算法所面临的状态变量维度增加、计算复杂度指数级增长等问题,针对多阶段问题,提出了一种能够处理 - 双层优化与 Stackelberg 博弈的一阶收敛方法
本研究提出了一种使用一阶信息解决一类双层优化问题的算法,该算法不需要使用二级目标的梯度的标准估计器或内部问题的近似解算器,而是交替使用幼稚的优化方法降低内部问题和使用特殊构建的梯度估计器降低上层目标函数,我们提供了双层目标的到达平稳点的非渐