随机网络优化中在线学习的优势

Apr, 2014

The Power of Online Learning in Stochastic Network Optimization

Longbo Huang, Xin Liu, Xiaohong Hao

TL;DR本文探讨了在未知系统统计数据的情况下，利用在线学习检测随机网络优化中的系统控制技术，证明了两个在线学习辅助控制技术 OLAC 和 OLAC2 的性能保证，并通过模拟结果证明了这些算法在实践中的优越性。

Abstract

In this paper, we investigate the power of online learning in stochastic network optimization with unknown system statistics {\it a priori}. We are interested in understanding how information and learning can be efficiently incorporated into →

online learning stochastic network optimization system control dual learning performance guarantees

发现论文，激发创造

在线线性二次控制

我们研究了控制具有已知嘈杂动力学和对抗选择二次损失的线性时不变系统的问题，并提出了第一种在这种情况下保证 O（sqrt（T））遗憾的有效在线学习算法。我们的算法依赖于对系统稳态分布的新型 SDP 松弛。与以前提出的松弛相反，我们的 SDP 的可行解都对应于 “强稳定” 策略，这些策略混合到稳定状态的速度呈指数增长。

Jun, 2018

在线堆叠伯格优化与非线性控制

适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词，该论文提出了一个统一的算法框架，用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化，同时说明了在各种情况下的的紧界限制以及应用实例。

Jun, 2024

在线非随机控制入门

本文介绍了一种新兴的控制理论，引入了在线非随机控制的概念，将凸优化和松弛优化技术应用于最优和鲁棒控制的传统场景，实现了可证明保障的新方法，使得控制的目标不再是静态指定的，而是在一定策略下取得低的遗憾值。

Nov, 2022

线性动力学的在线控制：基于数据驱动的方法

该论文研究在线控制问题，通过使用单一无噪声轨迹计算干扰累积并通过在线梯度下降更新参数，提出了一种数据驱动的策略来减小控制器的后悔。

Aug, 2023

带敌对扰动的在线控制

本文研究带有敌对干扰的线性动态系统的控制，在几乎不知道扰动信息的情况下，实现近乎最优的在线控制过程，主要贡献是提出一种算法来提供几乎紧密的遗憾界，这一研究在技术层面上对以前的工作进行了推广和扩展。

Feb, 2019

非随机控制的失当学习

本文研究非随机控制问题，提出了一种基于降噪观测值的控制器参数化方法，通过在线梯度下降方法得到一个新的控制器，其对一类闭环策略实现了次线性遗憾，为非随机控制领域中第一个可以与所有线性稳定动态控制器竞争的遗憾界。

Jan, 2020

基于 PDE 的无约束在线学习最优策略

通过解偏微分方程生成新的势函数，得到一种新的算法，该算法的任何时候的失误上限达到了最佳损失后悔权衡，且避免了不实用的加倍技巧。

Jan, 2022

合作在线学习：保持邻居更新

研究异步在线学习设置和代理人网络，探讨了代理人自网络结构中获取信息的效果对后悔程度的影响。当激活是随机时，研究了代理人无需了解网络结构即可达到最优后悔。当激活是对抗性的时候，研究了代理人可以基于网络结构的信息来减少后悔的上界。

Jan, 2019

通过在线学习实现广义逆优化

该论文提出了一种面向在线学习的反向优化算法框架，设计了一种隐式更新算法用于处理噪声数据，并证明其具有统计一致性。实验表明，该算法具有很高的精度和鲁棒性，并且在计算效率上比批量学习更具优势。

Oct, 2018

网络中的增强学习分散式在线凸优化

本文讨论了基于网络化多智能体系统的分散在线凸优化，并提出了一种新的算法 —— 学习增强的分散式在线优化（LADO），使个体代理人仅基于本地在线信息选择动作。与现有的集中式学习增强在线算法形成鲜明对比，LADO 实现了分散式设置下的强大的鲁棒性保证。我们还证明了 LADO 的平均成本限制，揭示了平均性能和最坏情况下鲁棒性之间的权衡，并表明通过明确考虑鲁棒性要求来训练 ML 策略的优势。

Jun, 2023