同时学习具有已知转移的随机和对抗式连续决策问题

Jun, 2020

同时学习具有已知转移的随机和对抗式连续决策问题

Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition

Tiancheng Jin, Haipeng Luo

TL;DR研究如何使用该算法在 stochastic losses 和 adversarial losses 的情况下同时获得最佳表现，并提出了一种新的混合正则化器，它基于 Zimmert 等人（2019a、2019b）的最新工作，但对于对角线海森矩阵逆运算比较复杂。

Abstract

This work studies the problem of learning episodic markov decision processes with known transition and bandit feedback. We develop the first algorithm with a ``best-of-both-worlds'' guarantee: it achieves $\mathcal{O}(log T)$ →

markov decision processes regret follow-the-regularized-leader method multi-armed bandits hessian inverse

发现论文，激发创造

最佳选择：具备未知转移的随机与对抗式序列决策问题（MDP）

研究了通过 T 个 episode 学习马尔可夫决策过程中两全其美的问题，提出了一种新的变换，将方法从已知转移推广到未知转移下，并使得转移估计错误上界为多项式级别。

Jun, 2021

使用贝叶斯机器人反馈和未知转移学习对抗性 MDP

本文提出了一种有效的算法，解决了具有未知转移函数、bandit 反馈和对抗损失的纪念有限时间段马尔可夫决策过程的学习问题，该算法能够以高概率实现 $\mathcal {\tilde {O}}(L|X|\sqrt {|A|T})$ 的后悔，其中 $L$ 为时间段，$|X|$ 为状态数，$|A|$ 为动作数，而 $T$ 为剧集数。

Dec, 2019

具有延迟反馈的对抗性马尔可夫决策过程学习

本文研究了具有未知转换和拥有无限制延迟反馈的分集式马尔可夫决策过程的在线学习，表现出基于策略优化的新算法，在完全信息反馈下实现了接近最优的高概率后悔情况，同时也是第一个考虑具有延迟反馈的 MDP 的后悔最小化设置。

Dec, 2020

双重利润策略优化

本文针对 tabular Markov 决策过程中的策略优化方法，通过设计适当的正则化器、探索奖励和学习率，在损失为随机时实现更优的 Polylog (T) 的损失，而在对抗的情况下不降低最坏情况下的保障，并且使用 Tsallis Entropy 和 Shannon Entropy regularizer 实现了这一目标。同时，我们展示了在已知的转移条件下，通过利用对数障碍正则化器，在对抗情况下可以获得一阶损失保证。

Feb, 2023

改进的对抗性线性混合马尔可夫决策过程算法：带有赌博反馈和未知状态转移

我们研究了采用线性函数逼近、未知转移和对抗性损失函数的强化学习算法在强化学习环境下。

Mar, 2024

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

在对抗性线性混合 MDPs 中的无限制视野强化学习

本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法，使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术，以解决探索和对抗性奖励所带来的挑战，证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)) sqrt (K)) 的后悔界，其中 d 是未知转移核线性参数化的已知特征映射的维数，K 是剧集数量，|S| 和 |A| 是状态和行为空间的基数。

May, 2023

医生对口罩使用的结论：有用但需辩证看待

本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果，将这种算法应用于上下文、图和表马尔科夫决策过程中。

Feb, 2023

具备对抗成本和已知转移的随机最短路径最小化遗憾

研究用 Online Mirror Descent 框架的各种新技术，包括改进的多尺度专家算法、从一般随机最短路径到特殊无环情况的降低、倾斜的占用度量空间以及添加到成本估计器的新校正项等，以解决带对手成本的随机最短路径问题并同时减小学习者方差和最优策略的偏差。

Dec, 2020

对抗性马尔科夫决策过程中的在线凸优化

本文研究了在线学习在没有循环的马尔可夫决策过程中的应用，提出了基于熵正则化方法实现的在线算法并给出了 $\tilde {O}(L|X|\sqrt {|A|T})$ 的遗憾界，通过处理凸性能标准并改进之前的遗憾界，扩展了对抗性 MDP 模型，并可以更好地处理单个 episode 的损失。

May, 2019