时变变分不等式的跟踪解决方案
本文研究了马尔可夫噪声下的随机泛型不等式问题,并提出了用于强化学习中的随机策略评估问题的算法,包括改进的标准 TD 算法和快速 TD 算法等。
Nov, 2020
本文提出了一种使用对数障碍惩罚函数的内点法解决具有时变目标和约束函数的凸优化问题的方法,并提出了一种能够跟踪(时变)最优解的连续时间动力系统来确保其全局渐近收敛于指数速度的最优解。
Aug, 2016
本文提出了适用于具有各种设置的函数约束 VI 问题的新型一阶方法,包括具有随机算子和 / 或随机约束的平滑或非平滑问题。通过使用算子和约束的外推来更新变量和 Lagrange 乘子,我们的算法能够实现最优操作员或样本复杂度。对于平滑的确定性问题,我们还提出了一种新的单循环自适应 Lagrangian 外推方法,可以自适应地搜索和显式地绑定 Lagrange 乘子。此外,我们的算法可以轻松地扩展到具有耦合函数约束的鞍点问题。
Apr, 2023
通过无监督学习非线性时间序列的低维表示方法,该方法基于每个序列服从自身的自回归模型并通过低秩约束与其他序列相关联的假设,可以用于聚类和分类等机器学习任务,并且在真实时间序列数据上展示了有竞争力的性能和符号文本建模和 RNA 序列聚类的有效性。
Jun, 2024
该研究考虑了一个重要的可达性问题,在这个问题中,一个玩家试图不违反一组状态限制,将系统引导到目标集中,而另一个玩家试图阻止第一个玩家成功;我们提出了一个基于修正的 HJI 方程形式的方法,该方法可以在无需状态增广的情况下计算时变游戏的捕获域和胜利策略,在相对于时不变情况无需额外的计算成本。
Oct, 2014
本文提出了一种名为 ALAVI 的增广 Lagrangian 原始 - 对偶方法,用于解决带有凸锥约束的非单调(混合)变分不等式模型,并证明了该方法的收敛性和全局收敛速率以及具有单调映射时的加速收敛速率,同时进行了大量的数值实验以证明方法的实用性。
Jun, 2023
机器学习中的快速进步基于与梯度优化的高效连接,在决策和多智能体问题上的转变为算法设计的新领域提出了新的数学挑战,我们提供了一个更广泛的梯度优化算法框架的简要介绍。
Sep, 2023
本研究提出了一个简单的原始方法,称为约束梯度法(CGM),以解决具有功能约束的变分不等式问题,并建立了非渐近收敛性分析,同时利用基于二次规划的更便宜的预算。
Mar, 2024
提出一种用于优化框架、鞍点问题和变分不等式的一般算法框架,通过构建主要问题组成部分即优化目标函数或者变分不等式运算符的不精确模型,不但可以产生许多已知的算法方法,同时可以构造新的算法方法,如具有复合结构的变分不等式的通用条件梯度法和相对光滑度算子的变分不等式算法。
Jan, 2020