随机网络优化中在线学习的优势
我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题,并提出了第一种在这种情况下保证 O(sqrt(T))遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反,我们的 SDP 的可行解都对应于 “强稳定” 策略,这些策略混合到稳定状态的速度呈指数增长。
Jun, 2018
适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词,该论文提出了一个统一的算法框架,用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化,同时说明了在各种情况下的的紧界限制以及应用实例。
Jun, 2024
本文介绍了一种新兴的控制理论,引入了在线非随机控制的概念,将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景,实现了可证明保障的新方法,使得控制的目标不再是静态指定的,而是在一定策略下取得低的遗憾值。
Nov, 2022
本文研究带有敌对干扰的线性动态系统的控制,在几乎不知道扰动信息的情况下,实现近乎最优的在线控制过程,主要贡献是提出一种算法来提供几乎紧密的遗憾界,这一研究在技术层面上对以前的工作进行了推广和扩展。
Feb, 2019
本文研究非随机控制问题,提出了一种基于降噪观测值的控制器参数化方法,通过在线梯度下降方法得到一个新的控制器,其对一类闭环策略实现了次线性遗憾,为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。
Jan, 2020
研究异步在线学习设置和代理人网络,探讨了代理人自网络结构中获取信息的效果对后悔程度的影响。当激活是随机时,研究了代理人无需了解网络结构即可达到最优后悔。当激活是对抗性的时候,研究了代理人可以基于网络结构的信息来减少后悔的上界。
Jan, 2019
该论文提出了一种面向在线学习的反向优化算法框架,设计了一种隐式更新算法用于处理噪声数据,并证明其具有统计一致性。实验表明,该算法具有很高的精度和鲁棒性,并且在计算效率上比批量学习更具优势。
Oct, 2018
本文讨论了基于网络化多智能体系统的分散在线凸优化,并提出了一种新的算法 —— 学习增强的分散式在线优化(LADO),使个体代理人仅基于本地在线信息选择动作。与现有的集中式学习增强在线算法形成鲜明对比,LADO 实现了分散式设置下的强大的鲁棒性保证。我们还证明了 LADO 的平均成本限制,揭示了平均性能和最坏情况下鲁棒性之间的权衡,并表明通过明确考虑鲁棒性要求来训练 ML 策略的优势。
Jun, 2023