在随机游戏中预测无知对手

Sep, 2024

Anticipating Oblivious Opponents in Stochastic Games

Shadi Tasdighi Kalat, Sriram Sankaranarayanan, Ashutosh Trivedi

TL;DR本研究解决了在并发随机游戏中系统性预测无知环境的动作和策略的问题。我们提出了一种有限信息状态机的合成方法，并引入了一致性概念，以确保状态机跟踪的信念状态与实际信念状态保持在固定距离内。实验结果表明，该方法在医疗手术和家具组装等任务中成功预测环境的策略和动作，从而最大化奖励。

Abstract

We present an approach for systematically anticipating the actions and policies employed by \emph{oblivious} environments in concurrent stochastic games, while maximizing a reward function. Our main contribution lies in the synthesis of a finite \emph{→

发现论文，激发创造

自适应信息信念空间规划

该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。

Jan, 2022

对抗对手下的学习马尔科夫博弈：高效算法与基本极限

本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题，并给出了一组正负结果，其中提出的新算法在普通的策略类别小或对手策略类别小时，可取得平均的regret较小的结果。

Mar, 2022

深度强化学习中的嘈杂符号抽象：以奖励机器为案例研究

本篇文章提出了一种特殊的POMDP优化问题，研究当使用Reward Machines作为奖励函数语言时，对于状态到符号语言的映射不确定的情况下，如何通过强化学习生成策略，并通过实验证明了这种方法的有效性和现有方法的局限性。

Nov, 2022

学习在没有知识的情况下玩随机完全信息双人游戏

本文将 Descent 框架从完全信息的两人博弈扩展至随机博弈领域，并探讨了两种方法的实现和效果，其中 Descent 的泛化在 EinStein wurfelt nicht! 游戏中取得了最佳效果，而通过确定性游戏的近似仍然取得了良好的结果，可见其在特定场景下可能会取得更好的效果。

Feb, 2023

偷袭计划对抗不完美观察者

隐秘规划研究使用随机动力学和不完美观察来实现最佳任务表现而不被检测到，本文引入了马尔可夫决策过程和近端策略梯度方法来解决这个问题。

Oct, 2023

从外部到Swap Regret 2.0：大动作空间的高效减少和无视敌对

我们提供了一种新颖的从交换后悔最小化到外部后悔最小化的约简方法，该方法改进了Blum-Mansour和Stolz-Lugosi的经典约简，不需要动作空间的有限性。我们的结果表明，只要存在某个假设类的无外部后悔算法，同样必然存在该类别的无交换后悔算法。对于使用专家建议的学习问题，我们的结果表明，在log(N)^{O(1/ε)}轮迭代中并且每次迭代的复杂度为O(N)，可以保证交换后悔受到ε的约束，而Blum-Mansour和Stolz-Lugosi的经典约简则需要O(N/ε^2)轮迭代和至少Ω(N^2)的复杂度。我们的结果还带有一个相关的下界，与[BM07]中的下界相反，该下界适用于具有遗忘性和限制的κ1的对手和学习者，以及可以使用专家分布的情况，从而说明轮数必须是Ω(N/ε^2)或以指数的方式与1/ε成反比。我们的约简意味着，如果在某个游戏中可以进行无后悔学习，那么该游戏必须具有近似的相关均衡，具有任意好的近似程度。这加强了无后悔学习所暗示的粗略相互相关均衡的存在。重要的是，它提供了一种存在相关均衡的充分条件，大大扩展了行动集有限的要求，从而回答了[DG22; Ass+23]中未解决的问题。此外，它还回答了关于均衡计算和/或游戏学习的几个未解决问题。

Oct, 2023

不完全信息博弈中的历史过滤：算法与复杂度

我们介绍和分析了子游戏分解中过滤历史的计算方面和可处理性，揭示了深度有限搜索通过子游戏分解在不完全信息环境下进行顺序决策的时机和方式。

Nov, 2023

带有单边信息的受状态限制的零和微分博弈

我们研究了带有状态约束和单侧信息的零和微分博弈，其中被告知的玩家（玩家1）具有未知于未告知玩家（玩家2）的分类奖励类型。玩家1的目标是在不违反约束的情况下最小化他的奖励，而玩家2的目标是要么违反状态约束，要么最大化奖励。我们的理论贡献是将这一结果扩展到带有状态约束的微分博弈，并导出计算行为策略所必需的原始和对偶子动态规则。与现有关注可伸缩性和泛化性的不完全信息动态博弈研究相比，我们关注的是揭示由于信息不对称和状态约束而导致的信念操纵行为的机制。我们使用简化的足球比赛来证明这项工作的实用性，我们揭示了攻击者应该（或不应该）在特定随机虚假行动中利用信息不对称的玩家位置和信念状态，并计算出防守者应该如何应对。

Mar, 2024

基于HSVI的部分观测随机博弈的在线极小化策略与神经感知机制

我们提出了一种变种的连续状态部分可观测的随机博弈模型，其中包含神经感知机制和不对称信息结构。我们首次提出了一种高效的在线计算ε-极小极大策略配置的方法，每个阶段仅需解决一个线性规划问题，而不是复杂的对手反事实值估计。对于部分知情的智能体，我们提出了一种持续解决方法，使用由启发式搜索值迭代（HSVl）预先计算的下界代替对手反事实值。对于完全知情的智能体，我们提出了一种推断信念策略，该智能体基于HSVl的（离线）上界维护对部分知情智能体信念的推断，从而保证到初始信念上两智能体已知的游戏价值的ε-距离。

Apr, 2024

通过欺骗来保护MDP中奖励函数的隐私

本论文研究了通过模拟来保护序列决策中偏好的隐私，以及使用逆向强化学习（IRL）学习这些偏好，提出了一种基于欺骗理论的新方法，并通过实验验证了该方法在保护奖励函数隐私方面的优越性。

Jul, 2024