腐败稳健的离线双人零和马尔可夫博弈
本文研究线性 MDP 环境下基于离线数据集的对抗鲁棒强化学习问题,提出并分析了罕见奖励污染情况下的最优区间,展示了由最优区间出发,直接针对初始化状态的改进算法;同时,我们指出该离线场景下普适的主动鲁棒化机制并不存在(例如动态调参等),并建议未来应着重于该问题的研究。
Jun, 2021
研究离线双人零和马尔可夫博弈中的数据集假设,发现单一策略浓度假设不能学习纳什均衡策略,提出一种名为单边浓度的新假设,并设计一种基于悲观主义的算法在该假设下可以高效地学习 NE 策略,并证明单边浓度的假设是学习 NE 策略所必需的。此外,算法可以在具有均匀浓度假设和基于回合的马尔科夫游戏的两种广泛研究的设置中实现极小最大样本复杂度。
Jan, 2022
本研究针对具有线性结构的两人零和有限马尔可夫博弈提出了一种基于乐观价值迭代的增强学习算法,该算法通过构建价值函数的上下置信区间,并用 Coarse Correlated Equilibrium 求解泛化和纳什均衡问题,实现了性能的总时间平方根复杂度的上限。
Feb, 2020
研究离线多智体强化学习在马尔科夫博弈中学习近似均衡,提供适用于一般函数逼近的新框架以处理所有三种均衡,此框架利用 Bellman 一致压缩和数据覆盖条件,与之前的算法框架相比,其保证更好且能够处理更广泛的情况。
Feb, 2023
我们设计了一种新颖的对抗性鲁棒性离线强化学习方法,以处理具有不同数据生成分布覆盖假设的数据污染情况,通过学习奖励模型和置信区间,然后在置信区间内学习一个悲观的最优策略,实现了离线强化学习中具有可证明的数据污染鲁棒性的 RLHF 方法。
Feb, 2024
文章介绍了一种基于乐观不确定性的算法 Nash-UCRL,在找到粗略相关均衡的情况下,可以有效地找到两个玩家的纳什均衡,并证明了其上界和下界的一致性,提出了一种解决有限状态下博弈问题的方法。
Feb, 2021
本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题,并给出了一组正负结果,其中提出的新算法在普通的策略类别小或对手策略类别小时,可取得平均的 regret 较小的结果。
Mar, 2022
研究了在奖励和转移概率未知的情况下的分集式强化学习,提出了使用新的算法来达到更好的后悔界限,并基于攻击性鲁棒性策略消除元算法和插入式无奖励探索子算法的通用算法框架。
Feb, 2021
通过利用 Tsallis 熵正则化的值迭代方法,我们提出了一种合理且收敛的算法,在弱条件下以无耦合和单时间尺度算法的方式高效地实现了近似纳什均衡。该算法在多项式时间内学习近似纳什均衡,仅需要存在一个诱导不可约和非周期性马尔可夫链的策略对,从而明显减弱了过去的假设。我们的分析利用了负漂移不等式,并引入了 Tsallis 熵的新特性,这些特性具有独立的研究价值。
Dec, 2023