控制理论在游戏中的在线优化:连接遗憾、被动性和庞加莱循环
适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词,该论文提出了一个统一的算法框架,用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化,同时说明了在各种情况下的的紧界限制以及应用实例。
Jun, 2024
本研究提出了一种在连续时间域中设计加速凸优化算法的建构性方法,该方法利用控制理论中的经典概念 —— 无源性和时间依赖变量的改变,通过将内部动态系统的输出映射到优化变量,得到与优化动态相关的李亚普诺夫函数,提供了一个具有灵活性的通用框架,可以生成带有不同收敛速度界限的凸优化算法。
Jun, 2023
考虑线性时变动态系统中的控制问题,使用后悔最小化的方法设计在线控制器,通过一个新的降阶到 H∞控制的方法导出了后悔最优控制器的状态空间结构,并给出了能量干扰下的紧密数据相关的后悔上界。
Oct, 2020
本文研究了 no-regret 动力学中最常被考虑的动态系统之一 - Follow-the-regularized-leader 的行为,证明了非严格的纳什均衡对于 no-regret 学习是不稳定的且不能吸引该动态系统的稳定状态,因此只有严格的纳什均衡是 no-regret 动力学的稳定限制点。
Oct, 2020
我们通过设计新的正则化技术,并将其与未经验证的未来成本预测相结合,实现了自适应于环境的 Non-stochastic Control 算法,这些算法通过考虑系统的内存具有新的数据自适应策略回归界限,并能在准确预测时收缩,即使全部失败时仍保持次线性。
Oct, 2023
本文研究了演化博弈理论中动态模型的一个能量守恒和耗散 —— 被动性方面,提出了使用状态空间表示的被动性概念,并设计了系统性方法来检验被动性并识别被动动态模型的属性,基于这些方法,阐述了被动性与人口游戏的稳定性的联系,并使用数值模拟说明了被动动态模型的稳定性。
Mar, 2018
该研究论文将 “乐观主义” 概念引入在线非随机控制(NSC)的新颖框架中,研究了如何利用负责预测未来成本的未知质量的预测预报器使 NSC 受益。首先将问题简化为具有延迟反馈的乐观学习问题,并通过乐观正则化领导者(OFTRL)算法家族来解决。这种简化使得设计 OptFTRL-C 成为第一个拥有乐观策略遗憾界限的干扰行为控制器(DAC)。这些新界限与预测预报器的准确性成正比,从完美预测的 Ο(1) 到当所有预测失败时的算法最优 Ο(T^0.5)。通过解决将不可信预测纳入控制系统的挑战,该研究工作在 NSC 框架的推进以及实现有效和稳健的学习控制器方面做出了贡献。
Apr, 2024
本研究中,我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限,并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。
Sep, 2019
通过一种启发式的学习方案,我们派生出了一种由惩罚项调整的复制者漂移的新类连续时间学习动态,这种惩罚调节的动态相当于玩家保留他们正在进行的回报的指数折扣总和,然后基于这些表现分数使用平滑最佳响应选择行动。借助这种内在的对偶,所提出的动态满足一种进化博弈理论的民间定理的变体,并且它们以(任意精度的)纳什均衡的逼近收敛于潜在游戏。受到交通工程应用的启发,我们进一步利用这种对偶来设计离散时间的,基于回报的学习算法,该算法具有这些收敛性质,并且仅需要玩家观察他们在游戏中的回报
Mar, 2013