- IJCAI使用乐观在线镜像下降法来减小加权对策后悔
利用乐观的在线镜像下降算法最小化加权的对策后悔,从而加速收敛并解决博弈问题。
- RL-CFR: 在具有强化学习的不完全信息扩展形式博弈中改进动作抽象
RL-CFR 是一种基于强化学习的动态行动抽象方法,通过建立具有强化学习指导的行动抽象的游戏树,并利用反事实后悔最小化 (CFR) 进行策略推导,实现了更高的期望回报而不增加 CFR 解决时间,在 Heads-up No-limit Tex - ABC 轻松统一玻尔兹曼 Q 学习与反事实遗憾最小化
提出了 ABCs(Adaptive Branching through Child stationarity)算法,通过结合 Boltzmann Q-learning(BQL)和 counterfactual regret minimiza - PokerGPT: 通过大型语言模型的端到端轻量级解决方案,用于多人德州扑克
PokerGPT 使用增强学习人类反馈技术,通过将真实游戏记录转化为提示信息,将 LM 模型细化,从而解决了德州扑克等不完全信息游戏中的问题,在获胜率、模型大小、训练时间和响应速度等方面优于之前的方法。
- 纯蒙特卡罗反事实遗憾最小化
基于 Counterfactual Regret Minimization(CFR)方法,该研究提出了一种名为 Pure CFR(PCFR)的新算法,扩展了 CFR 并结合了 Fictitious Play(FP)的概念,通过使用最佳响应策 - CFR-p: 带有层次策略抽象的反事实遗憾最小化及其在二人麻将中的应用
应用反事实遗憾最小化(CFR)算法于麻将这一不完全信息游戏,通过进行博弈论分析、基于获胜策略的分级抽象,研究了两人麻将的复杂性及其与扑克游戏的差异,此框架可以推广到其他不完全信息游戏。
- 层次深度对抗性后悔最小化
本文介绍了首个用于处理具有广泛状态空间和深层游戏树的任务的层次 Deep CFR(HDCFR)算法,其结合了基于技能的策略学习和 CFR,并采用神经网络作为函数逼近器。
- ESCHER: 使用历史价值函数估计悔恨值,避免在游戏中采用重要性采样
本文提出了一种无偏的基于模型的方法 ESCHER,不需要重要性采样,旨在学习近似纳什均衡。实验结果表明,ESCHER 在游戏大小较大时比 DREAM 和 NFSP 表现更好,并且在黑暗棋中有超过 90%的胜率。
- 广泛型博弈中的偏差类型和学习有效性:纠正
该研究旨在通过在 extensive-form games 中进行 behavioral deviations 来开发一种回顾性理性的学习算法,该算法采用 counterfactual regret minimization 策略,并能适用 - AAAI未知序贯决策问题和游戏的无模型在线学习
提出了一种适用于黑盒环境的极限情况的后悔最小化算法,通过以前保证仅实现的限制来实现亚线性的后悔率,并将其应用于逼近 Nash 均衡,学习最佳反应以及安全的对手利用等问题。
- ICML关于全面博弈推理中的有效偏差类型和学习
本文提出 “Hindsight Rationality” 方法,基于 Counterfactual Regret Minimization(CFR)和 Extensive-Form Regret Minimization(EFR)算法,通过 - AAAI相关对局的回顾性和序贯理性
通过适应性算法的考虑以确保比修改行为所能达到的结果更好,我们可以基于相关学习动态产生新的博弈理论分析,这样做比基于平衡策略算法更加有效,因为前者可以处理非零和多人博弈问题。我们重新审视了博弈理论中的中介均衡和偏差类型,证明了没有可行的概念包 - AAAI利用量子对手在大型双人游戏中的复杂性和算法
本文旨在分析和提出可扩展的算法,以计算正常形式和广义形式下对量化对手的有效和稳健策略,通过对量化对手的剥削,定义了两种解决方案,分析了它们的特性,并证明了计算这些解决方案是计算上困难的,因此我们评估了几种基于可扩展的对偶后悔最小化的启发式近 - AAAI预测性布莱克韦尔可达性加速游戏求解:联接遗憾匹配与镜像下降
本文提出了预测 Blackwell 可达性算法的概念,基于在线凸优化的后悔最小化算法,得到了针对多次博弈问题的多种算法,并在 18 个经典的零和博弈模型上的实验中取得了优秀的效果。
- ICML用于零和平衡点求解的稀疏线性规划
该论文提出了一种新颖的方法利用线性规划解决计算均衡的问题,这种方法比以往的算法更高效,并可以用于解决大型的信息不完备博弈,特别是在极限状态下。
- 组合无遗憾和 Q 学习
介绍一种名为本地无后悔学习(LONR)的算法,它使用类似于 Q 学习的更新规则,允许在没有输入状态或完美回忆的情况下进行学习,证明了其在 MDPs 和有限的扩展中的收敛性,并呈现实验结果,表明它在许多情况下实现了最后迭代的收敛,特别是 No - 深度对抗性遗憾最小化
本文介绍了一种新的 CFR 形式:Deep CFR,它不再需要抽象,而是使用深度神经网络来近似 CFR 在完整游戏中的行为,并展示了它在大型扑克游戏中的成功表现。
- AAAI应对策略限制的大规模扩展博弈求解
研究表明,通过推广反事实遗憾最小化,我们可以解决一般约束下的最优策略问题,并且该算法可广泛应用于复杂博弈中,如安全博弈中的风险缓解和扑克游戏中的对手建模。
- 通过折现遗憾最小化解决不完美信息博弈
本文介绍了改进的 Counterfactual regret minimization(CFR)算法,包括折扣遗憾值、迭代加权和非标准遗憾值最小化等四个变量,我们的新算法在大规模现实环境下的每个游戏中都优于之前的方法 CFR+。另外,与 C - ICML部分可观测深度强化学习的后悔最小化
本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法,能够有效处理部分观测状态,并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有