DREAM: 具有优势基线和无模型学习的深度减少遗憾

Jun, 2020

DREAM: 具有优势基线和无模型学习的深度减少遗憾

DREAM: Deep Regret minimization with Advantage baselines and Model-free learning

Eric Steinberger, Adam Lerer, Noam Brown

TL;DR本文介绍了一种名为 DREAM 的深度强化学习算法，该算法能够在具有多个代理的不完全信息游戏中找到最优策略，其中 DREAM 在两人零和游戏中收敛于 Nash 均衡，在其他游戏中收敛于广义协调均衡，该算法不需要对游戏进行完美的模拟器，通过实验证明了 DREAM 在流行的基准游戏中达到了最先进的无模型算法的性能，甚至与需要严格模拟的算法互相竞争。

Abstract

We introduce dream, a deep reinforcement learning algorithm that finds optimal strategies in imperfect-information games with multiple age

dream deep reinforcement learning imperfect-information games nash equilibrium extensive-form coarse correlated equilibrium

发现论文，激发创造

部分可观测深度强化学习的后悔最小化

本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法，能够有效处理部分观测状态，并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。

Oct, 2017

使用函数遗憾估计来解决游戏

本文提出了一种新的在线学习方法，用于在大型 extensive-form 游戏中最小化后悔。该方法通过在线学习函数逼近器来估计选择特定行动的后悔值，并使用无悔算法根据这些估计值来定义一系列策略。我们证明了该方法的正确性，并证明了只要逼近函数能够实现后悔值，方法就能自我学习并收敛到纳什均衡。我们的技术可以被理解为现有大型游戏中抽象工作的原则性推广；在我们的工作中，抽象和均衡都是在自我博弈中学习的。我们在实验中展示了该方法可以在相同资源条件下实现比最先进的抽象技术更高质量的策略。

Nov, 2014

未知序贯决策问题和游戏的无模型在线学习

提出了一种适用于黑盒环境的极限情况的后悔最小化算法，通过以前保证仅实现的限制来实现亚线性的后悔率，并将其应用于逼近 Nash 均衡，学习最佳反应以及安全的对手利用等问题。

Mar, 2021

连续博弈中的自适应学习：最优遗憾边界和纳什均衡收敛

本文提出了一种基于乐观的镜像下降的无悔策略算法，可以在非稳态环境下实现 O (sqrt (T)) 的后悔度，并可在变分稳定游戏中收敛到纳什均衡。

Apr, 2021

行为受限零和博弈中的遗憾最小化

使用 CFR 框架开发算法以解决行为约束的 extensive-form games，同时计算近似 Nash 平衡改进。比标准算法更好，收敛速率与最先进的 Nash 平衡计算算法相当。

Nov, 2017

DREAM: 多机器人系统中的分布式强化学习用于探索和高效能源管理

资源受限的机器人经常面临能源低效、计算能力利用不足、动态环境中的鲁棒性不足等问题，本论文介绍了一种名为 DREAM（分散式强化学习用于多机器人系统的探索和高效能源管理）的综合框架，通过优化资源分配以实现高效探索，提出了一种操作范围估计的强化学习方法来进行探索和避障，另外引入了一个能源消耗模型来进行目标分配，从而确保在资源有限的情况下完成任务，实验表明，与传统方法相比，在各种模拟环境中，我们的方法改进了约 25%，为资源受限机器人领域未来的研究开辟了新的方向。

Sep, 2023

ESCHER: 使用历史价值函数估计悔恨值，避免在游戏中采用重要性采样

本文提出了一种无偏的基于模型的方法 ESCHER，不需要重要性采样，旨在学习近似纳什均衡。实验结果表明，ESCHER 在游戏大小较大时比 DREAM 和 NFSP 表现更好，并且在黑暗棋中有超过 90％的胜率。

Jun, 2022

深度对抗性遗憾最小化

本文介绍了一种新的 CFR 形式：Deep CFR，它不再需要抽象，而是使用深度神经网络来近似 CFR 在完整游戏中的行为，并展示了它在大型扑克游戏中的成功表现。

Nov, 2018

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

组合无遗憾和 Q 学习

介绍一种名为本地无后悔学习（LONR）的算法，它使用类似于 Q 学习的更新规则，允许在没有输入状态或完美回忆的情况下进行学习，证明了其在 MDPs 和有限的扩展中的收敛性，并呈现实验结果，表明它在许多情况下实现了最后迭代的收敛，特别是 NoSDE 游戏这类的 Markov 游戏。

Oct, 2019