基于混合正则化的优化探索：针对偏向监控的对数遗憾与对抗鲁棒性

Feb, 2024

基于混合正则化的优化探索：针对偏向监控的对数遗憾与对抗鲁棒性

Exploration by Optimization with Hybrid Regularizers: Logarithmic Regret with Adversarial Robustness in Partial Monitoring

PDF

Taira Tsuchiya, Shinji Ito, Junya Honda

TL;DR通过优化的探索，局部监控问题的新型逼近算法提供了在随机和对抗环境中近乎最佳的悔恨界限。

Abstract

partial monitoring is a generic framework of online decision-making problems with limited observations. To make decisions from such limited observations, it is necessary to find an appropriate distribution for exploration. Recently, a powerful approach for this purpose, →

partial monitoring exploration by optimization regret bounds best-of-both-worlds algorithms stochastic environments

发现论文，激发创造

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

指数衰减遗憾的贝叶斯乐观优化

本文从贝叶斯优化和基于树的乐观优化结合的角度出发，探讨了在无噪声环境中提高后悔度边界的可能性，并提出了 BOO 算法，该算法在假设目标函数从具有 Matern 内核且平滑度参数 ν>4+D/2 的高斯过程中提取样本的情况下，可以实现指数级后悔度边界。实验结果表明，BOO 算法在优化各种合成函数和机器学习超参数调整任务方面，均优于基线算法。

May, 2021

通过根对数正则化实现 Minimax 最优分位数和半对抗性遗憾

利用 FTRL 算法具有不同的正则化器降低 Quantile 和 KL regret bounds，与 NormalHedge 和其变体相比，成功完成对抗数据中对大多数专家而不是最佳专家进行竞争，并在半对抗范式中使用自适应最小值的算法来适应真实、未知的约束条件，导致了统一改进的 regret 上限。

Oct, 2021

部分可观察线性动力系统的对数遗憾界

研究如何在部分可观测线性动态系统中进行系统识别和自适应控制，提出了一种基于模型评估的自适应控制在线学习算法，可通过与环境的交互来估计模型动态，通过在线梯度下降更新控制器并改善控制器效能，该算法达到了未知系统的自适应控制的 Polylog (T) 的遗憾上限。

Mar, 2020

在线控制的对数后悔

本研究中，我们研究了在线控制下的线性动态系统在拥有转移动态知识的拥有敌意的变化强凸成本函数下的最优遗憾界限，并提出了在线梯度下降和在线自然梯度两种不同且高效的迭代方法来实现遗憾边界小而有效。

Sep, 2019

对抗性在线控制的对数遗憾

本文针对已知系统且受到敌对扰动的情况下，介绍了新的在线线性二次控制算法，通过将在线控制问题转化为具有近似优越函数的（延迟的）在线学习，无需控制迭代的运动成本，从而提高了算法的效果。

Feb, 2020

通过线性优化改进线性对抗 MDPs 的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。

Feb, 2023

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

基于信息论的部分监控极小后悔策略

本研究证明了一个新的 minimax 定理，将贝叶斯最坏情况遗憾和没有对手信号或决策的 minimax 遗憾联系起来。进而推广 Russo 和 Van Roy (2016) 的信息论工具，证明了多种部分监视设置的 minimax 遗憾边界。其中最突出的是对 ' 非退化简单 ' 和' 困难 ' 有限部分监控的清晰分析，提供了独立于任意大的游戏相关常数的新遗憾约束。该研究还通过证明对于 k 武装对手贝叶斯遗憾最多为 sqrt {2kn}，提高了现有成果 2 倍的 minimax 遗憾界，进一步展示了推广机器的能力。最后，我们提供了警察和流氓游戏的简单分析，也提高了最好已知的常数。

Feb, 2019

随机组合部分监督博弈中的相位探索与贪婪开采

讨论了组合型部分监测游戏的算法框架及其实现，提出了基于置信度界限和探索利用两种算法，同时还探讨了如何将本算法应用于实际感兴趣的问题：在线排名与反馈。

Aug, 2016