- 在线凸优化:同时为所有分段确定最佳切换遗憾
在线凸优化中,我们介绍了一种出人意料地高效且同时在所有可能分割上实现渐进最优切换遗憾的算法,该算法在时间复杂度和空间复杂度上都取得了对数级的效果,同时对比序列变化的速率也获得了新的界限。
- 动态网络化系统中波动能源资源的分布式管理
现代电力系统集成可再生分布式能源资源作为一种环境友好的增强措施,以满足不断增长的需求。然而,可再生能源固有的不可靠性使得开发分布式能源资源管理算法变得迫在眉睫。我们在由多个分布式能源资源组成的系统中研究能量共享问题,每个代理在其邻域内收集和 - 应对黑天鹅事件:机器学习的反脆弱性要求
这篇论文在机器学习的高风险应用中,提出了抗脆弱性的概念,并给出了在线决策制定中抗脆弱性的形式化定义,探讨了当前方法对非稳态环境的抵抗性的局限性,并提出了计算抗脆弱性的潜在途径,将该概念与在线学习理论以及最近在元学习、安全探索、持续学习、多目 - 非平稳分布下的风险规避学习
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上 - 未知目标的预测线性在线跟踪
研究在线跟踪线性控制系统中的问题,目标是追踪一个移动目标,提出了一种新的算法 PLOT,该算法使用递归最小二乘法和指数遗忘来学习目标的时变动态模型,并在前向视界控制框架下使用学到的模型。展示了 PLOT 的动态遗憾量与目标动力学的总变化量成 - 非平稳在线学习的高效方法
优化非稳态动态损失和自适应损失的有效方法涉及非稳态在线学习的减少投影和梯度查询次数,在参数自由在线学习的基础上进行了非平凡的改进。
- ICML无限损失的无限制在线学习
本文提出了一种新的在线学习模式,可以处理无界域和非 Lipschitz 损失的问题,并开发了新的基于套索的在线学习算法,同时利用此算法开发了新的鞍点优化算法,在无界域中实现对偶间隙的收敛;最终提供了第一个实现非 Lipschitz 损失下的 - 在线标签偏移:最优动态遗憾遇见实用算法
本文提出了一种基于在线回归算法的解决方法,旨在解决标签分布在线变化时的监督式和非监督式学习问题,实现了动态固定遗憾,取得了比较好的实验结果。
- 任意延迟的非平稳在线凸优化
研究了非平稳环境下具任意延迟的在线凸优化问题,提出了一个简单的算法 DOGD,通过运用多个学习率的 DOGD,并跟踪最佳 one 的延迟性能,将动态遗憾边界降至 O (根号下 d*T*(P_T+1)) 和 O (根号下 S (1+P_T)) - 动态和自适应损失保证下非稳态无投影在线学习
本文研究了非稳态下的无投影在线学习,使用动态遗憾和自适应遗憾来衡量性能,提出了基于多个不同步长的 BOGD_IP 算法并行运行的算法,以及维护一组 BOGD_IP 算法并动态地组合它们的元算法,实验结果验证了理论分析。
- 非平稳环境下的 MNL-Bandit
本文研究在非稳态环境下的 MNL-Bandit 问题,提出一种算法,其最坏动态遗憾为 $\tilde {O}(\min \left\{ \sqrt {NTL}\;;\; N^{\frac {1}{3}}(\Delta_{\infty}^{K - 通过 Frank-Wolfe 优化实现具有有界动态遗憾的算法和控制应用的高效在线学习
本文提出了一种基于 Online Convex Optimization with Memory 与 Frank-Wolfe 算法的无投影元基学习算法,可以实现投影 - 免费的在线学习,应用于自适应时变环境控制等领域。
- 通过概念漂移中的非稳态检测和适应实现在线联邦学习
本文提出一种多尺度算法框架,该框架结合了 FedAvg 和 FedOMD 算法在接近静态场景下的理论保证,同时采用非静态检测和自适应技术以改善 FL 泛化性能,并给出了多尺度算法框架,在具有广义凸损失函数的情况下,每 T 个回合导致动态后悔 - 线性时变系统中基于扰动的预测控制遗憾分析
研究了在动态预测控制中,如何应对时间变化的线性动态和成本,提出了动态后悔度和控制竞争度的因果关系,并基于扰动边界提出了一种新的证明框架。
- 非平稳线性赌臂问题的简单解法
本文研究了非平稳线性臂问题,提出了一种基于重启策略的算法以平衡利用和探索,并证明了该算法的动态遗憾值,同时还解决了现有算法中的严重技术缺陷问题。
- 无先验知识的非平稳强化学习:一种最优黑盒方法
本文提出一种黑盒化的方法,将某些强化学习算法在(近)平稳环境下的优化遗憾转化为在非平稳环境下的优化动态遗憾,并且不需要事先了解非平稳度。通过把不同的算法插入到这个黑盒中,我们给出一系列的例子,表明该方法不仅可以重构最近通过特殊算法实现的(上 - 关于基于预测的在线 LQR 控制算法的后悔分析
本文研究在线线性二次调节器(LQR)控制与时变成本函数和干扰的动态后悔。研究了具有有限前瞻窗口的成本函数和干扰情况。本文研究的在线控制算法属于具有特定选择终端成本的模型预测控制(MPC),以保证 MPC 的指数稳定性。证明了这种在线算法的后 - 动态环境下的遗憾最优控制
考虑线性时变动态系统中的控制问题,使用后悔最小化的方法设计在线控制器,通过一个新的降阶到 H∞控制的方法导出了后悔最优控制器的状态空间结构,并给出了能量干扰下的紧密数据相关的后悔上界。
- ICML非平稳 RL 中的无模型方法:接近最优遗憾及在多智能体 RL 和库存控制中的应用
提出了 RestartQ-UCB 算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
- 分段多项式趋势的自适应在线估计
文章探讨带有噪声梯度反馈的非平稳随机优化框架,在比较序列变化的动态策略中,研究在线学习算法的动态后悔,并引入了 Total Variation ball 等新颖变分约束来建模比较序列,并基于基于小波的非参数回归理论,设计出一个多项式时间算法