关键词adversarial disturbances
搜索结果 - 4
- 在线堆叠伯格优化与非线性控制
适应性代理、在线控制、后悔最小化、对抗性干扰、表现性预测是该研究论文的主要关键词,该论文提出了一个统一的算法框架,用于在预测和优化可能的代理响应空间中实现可计算的后悔最小化,同时说明了在各种情况下的的紧界限制以及应用实例。
- 具有双重鲁棒性的安全强化学习
提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题,包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上,提出了一种双重策略迭代方案,同时优化任务策略和安全策略。证明了该迭代方案的收敛性。 - ICML对抗性在线控制的对数遗憾
本文针对已知系统且受到敌对扰动的情况下,介绍了新的在线线性二次控制算法,通过将在线控制问题转化为具有近似优越函数的(延迟的)在线学习,无需控制迭代的运动成本,从而提高了算法的效果。
- 带敌对扰动的在线控制
本文研究带有敌对干扰的线性动态系统的控制,在几乎不知道扰动信息的情况下,实现近乎最优的在线控制过程,主要贡献是提出一种算法来提供几乎紧密的遗憾界,这一研究在技术层面上对以前的工作进行了推广和扩展。