腐败稳健的离线双人零和马尔可夫博弈

Mar, 2024

腐败稳健的离线双人零和马尔可夫博弈

Corruption-Robust Offline Two-Player Zero-Sum Markov Games

Andi Nika, Debmalya Mandal, Adish Singla, Goran Radanović

TL;DR我们研究了线性马尔可夫游戏中离线两人零和游戏中的数据损坏鲁棒性问题，提出了鲁棒版本的悲观极小极大值迭代算法，并给出了关于 epsilon 的 (近) 最优次优性能界限。

Abstract

We study data corruption robustness in offline two-player zero-sum Markov games. Given a dataset of realized trajectories of two players, an adversary is allowed to modify an $\epsilon$-fraction of it. The learner's goal is to identify an approximate →

data corruption offline two-player zero-sum markov games nash equilibrium policy linear markov games suboptimality gap

发现论文，激发创造

抗腐败离线强化学习

本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题，提出并分析了罕见奖励污染情况下的最优区间，展示了由最优区间出发，直接针对初始化状态的改进算法；同时，我们指出该离线场景下普适的主动鲁棒化机制并不存在（例如动态调参等），并建议未来应着重于该问题的研究。

Jun, 2021

离线双人零和马尔可夫博弈何时可解？

研究离线双人零和马尔可夫博弈中的数据集假设，发现单一策略浓度假设不能学习纳什均衡策略，提出一种名为单边浓度的新假设，并设计一种基于悲观主义的算法在该假设下可以高效地学习 NE 策略，并证明单边浓度的假设是学习 NE 策略所必需的。此外，算法可以在具有均匀浓度假设和基于回合的马尔科夫游戏的两种广泛研究的设置中实现极小最大样本复杂度。

Jan, 2022

具有通用函数近似的反腐败离线强化学习

我们研究了离线强化学习中的腐败鲁棒性问题，提出了一种新的不确定性权重迭代方法来计算批处理样本，并设计了一种对腐败具有鲁棒性的离线强化学习算法。

Oct, 2023

使用函数逼近和相关均衡学习零和同时行动马尔可夫博弈

本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法，该算法通过构建价值函数的上下置信区间，并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题，实现了性能的总时间平方根复杂度的上限。

Feb, 2020

马尔科夫博弈中的离线学习和一般函数逼近

研究离线多智体强化学习在马尔科夫博弈中学习近似均衡，提供适用于一般函数逼近的新框架以处理所有三种均衡，此框架利用 Bellman 一致压缩和数据覆盖条件，与之前的算法框架相比，其保证更好且能够处理更广泛的情况。

Feb, 2023

腐败鲁棒离线强化学习与人类反馈

我们设计了一种新颖的对抗性鲁棒性离线强化学习方法，以处理具有不同数据生成分布覆盖假设的数据污染情况，通过学习奖励模型和置信区间，然后在置信区间内学习一个悲观的最优策略，实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。

Feb, 2024

针对两人零和线性混合马尔可夫游戏的近乎最优算法

文章介绍了一种基于乐观不确定性的算法 Nash-UCRL，在找到粗略相关均衡的情况下，可以有效地找到两个玩家的纳什均衡，并证明了其上界和下界的一致性，提出了一种解决有限状态下博弈问题的方法。

Feb, 2021

对抗对手下的学习马尔科夫博弈：高效算法与基本极限

本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题，并给出了一组正负结果，其中提出的新算法在普通的策略类别小或对手策略类别小时，可取得平均的 regret 较小的结果。

Mar, 2022

改进的环境依赖强化学习的鲁棒性算法

研究了在奖励和转移概率未知的情况下的分集式强化学习，提出了使用新的算法来达到更好的后悔界限，并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。

Feb, 2021

弱可达情况下的零和马尔可夫博弈纳什均衡学习

通过利用 Tsallis 熵正则化的值迭代方法，我们提出了一种合理且收敛的算法，在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡，仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对，从而明显减弱了过去的假设。我们的分析利用了负漂移不等式，并引入了 Tsallis 熵的新特性，这些特性具有独立的研究价值。

Dec, 2023