具备反馈延迟的平滑在线凸优化的鲁棒学习

Oct, 2023

具备反馈延迟的平滑在线凸优化的鲁棒学习

Robust Learning for Smoothed Online Convex Optimization with Feedback Delay

Pengfei Li, Jianyi Yang, Adam Wierman, Shaolei Ren

TL;DR我们研究了一种具有多步非线性切换成本和反馈延迟的挑战性平滑在线凸优化（SOCO）形式，提出了一种新颖的机器学习（ML）增强的在线算法，名为 Robustness-Constrained Learning（RCL），它通过受限投影将不受信任的 ML 预测与可信的专家在线算法结合起来，以增强 ML 预测的鲁棒性。具体而言，我们证明了 RCL 能够对于任何给定的专家保证（1+λ）竞争力，其中 λ>0，同时以鲁棒性感知的方式明确地训练 ML 模型以提高平均性能。重要的是，RCL 是第一个在多步切换成本和反馈延迟情况下具有可证明的鲁棒性保证的 ML 增强算法。我们以电动交通的电池管理为案例研究，展示了 RCL 在鲁棒性和平均性能方面的改进。

Abstract

We study a challenging form of smoothed online convex optimization, a.k.a. SOCO, including multi-step nonlinear switching costs and feedback delay. We propose a novel →

smoothed online convex optimization machine learning robustness-constrained learning multi-step switching cost feedback delay

发现论文，激发创造

学习增强在线算法的最优韧性 - 一致性平衡

研究如何将机器学习预测融入在线算法以提高性能，并提供非平凡的下界来衡量竞争分析的最优权衡.

Oct, 2020

在线持续学习用于室内物体识别的强健性

家用机器人上安装的视觉系统需要与不可见的类别在多变的环境中进行交互。我们提出了 RobOCLe 作为一种少样本在线持续学习模型，通过构建富化特征空间和计算样本的高阶统计矩来改善连续学习模型的鲁棒性。

Jul, 2023

在线优化的具有记忆成本的强化学习

提出一种新的 Expert-Robustified Learning (ERL) 方法，即利用专家在线算法进行投影运算实现对机器学习行为（即 Online Optimization with Memory Costs）的强度鲁棒性，并通过递归神经网络模型进行传递专家在线算法的平均性能训练，从而在内存成本上提高行为竞争性能和稳健性。

May, 2023

具有未知延迟的在线顺序决策

在在线顺序决策的领域中，我们利用在线凸优化（OCO）框架解决带有延迟的问题，其中决策的反馈可能会有未知的延迟。我们提出了三类基于近似解的延迟算法，以处理不同类型的接收反馈。我们提出的算法多功能且适用于通用范数，在每种算法类型下给出了相应的遗憾界限。我们通过具体示例展示了每种算法在不同范数下的效率，并且理论结果在标准设置下与当前最佳界限一致。

Feb, 2024

学习鲁棒组合优化：算法与应用

该论文研究了利用神经网络在 robust combinatorial optimization 中解决 minimax optimization 问题的新方法 Learning for Robust Combinatorial Optimization (LRCO)，并通过在车载边缘计算中解决任务分配问题进行模拟，证明了 LRCO 能够大大减少最坏情况的成本和提高鲁棒性，同时具有非常低的运行时复杂度。

Dec, 2021

具有切换成本和延迟梯度的在线凸优化

在线凸优化问题中，我们考虑带有二次和线性切换成本的有限信息环境下的问题，通过使用关于先前目标函数的梯度信息，我们提出了在线多梯度下降算法 (Online Multiple Gradient Descent, OMGD)，并证明了其在二次切换成本的 OCO 问题的竞争比为至多 4 (L + 5) + (16 (L + 5))/μ。对于有界信息环境中的在线算法，其竞争比的上界和下界分别为 max {Ω(L), Ω(L/√μ)}。此外，还证明了 OMGD 算法实现了有限信息环境下的动态最优（按顺序）遗憾，并且对于线性切换成本，OMGD 算法的竞争比的上界取决于问题实例的路径长度、平方路径长度以及 L、μ，并且被证明是任何在线算法能够达到的最佳竞争比。因此，我们得出结论，在有限信息环境中，二次和线性切换成本的最优竞争比基本上是不同的。

Oct, 2023

分布式在线优化中处理延迟反馈：一种无投影的方法

本研究中，我们在边缘学习方面进行了调查，探讨了在线凸优化问题下的对抗性延迟反馈，提出了两种无投影算法，用于集中式和分布式环境中，通过与现有方法在真实世界问题上的比较，我们理论上和实验证明了算法的性能，实现了延迟环境中 OCO 问题的 O (√B) 的后悔界。

Feb, 2024

具有对抗约束的在线凸优化的严格界

有关在线凸优化和约束在线凸优化的一篇研究论文，证明了一个在线策略可以同时实现 O (√T) 的遗憾和 θ̃(√T) 的累积约束违规，通过将 AdaGrad 算法的自适应遗憾界与 Lyapunov 优化相结合，达到了这一结果。

May, 2024

线性约束在线凸优化的乐观安全性

在线凸优化（OCO）的未知约束设置是近年来备受关注的问题。本研究考虑了一种具有静态线性约束且玩家接收到噪声反馈并始终满足的问题版本。通过利用我们的乐观安全设计范例，我们提供了一种算法来解决该问题，其后悔值为 O (√T)。这比之前最佳后悔边界 O (T^2/3) 有所改进，并且只使用了更强烈一些的独立噪声和无意识对手的假设。然后，我们将该问题重新表述为随时间变化的随机线性约束下的 OCO 问题，并证明了我们的算法在这样的设置中具有相同的后悔保证，并且预期上不违反约束。这对于 OCO 在随时间变化的随机约束下的文献做出了贡献，其最先进的算法在约束为凸约束且玩家接收到完整反馈时具有 O (√T) 的后悔和 O (√T) 的违规。此外，我们提供了更加高效的算法版本，并通过与基准算法进行了数值实验比较。

Mar, 2024

随机网络优化中在线学习的优势

本文探讨了在未知系统统计数据的情况下，利用在线学习检测随机网络优化中的系统控制技术，证明了两个在线学习辅助控制技术 OLAC 和 OLAC2 的性能保证，并通过模拟结果证明了这些算法在实践中的优越性。

Apr, 2014