强化学习中自我对弈方法的综述
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
本文介绍了一个名为Ranked Reward(R2)的算法,它能够将敌对自我博弈用于单人游戏,并将其应用于维度为2和3的装箱问题,证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器,并对排名奖励机制进行了分析。
Jul, 2018
本研究通过应用神经虚拟自我博弈(Neural Fictitious Self-Play,NFSP)和策略梯度强化学习方法,实现了在小型 RTS 游戏上寻找纳什均衡的目标,并且通过预先使用策略梯度自我博弈来预训练模型,成功提高 NFSP 的可扩展性。
Feb, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
研究自博弈算法在Markov游戏中的应用,提出了Value Iteration with Upper/Lower Confidence Bound (VI-ULCB)算法和探索-开采算法,并证明了其在策略最佳化中的有效性和高样本利用率。
Feb, 2020
本文探讨了如何通过使用other-play算法增强self-play算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以Hanabi卡牌游戏为例展示了该算法的实验结果。
Mar, 2020
本文提出了楽观的Nash Q-learning算法,并使用了新的Nash V-learning算法,解决了在马尔可夫博弈环境中的奖励学习优化问题,且这个算法的采样复杂度比现有算法还要低.
Jun, 2020
本研究针对多智能体强化学习在与人合作零-shot学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估Overcooked benchmark,HSP方法成功获得了更高的协同收益,并被受试者评选为最有帮助的策略。
Feb, 2023
本研究从风险偏好角度设计出一种名为RPPO的新型强化学习算法,通过与不同对手对局的经验,使代理进行动态风险敏感的目标优化,从而增加自我玩耍算法的多样性,并在竞争性游戏中获得可比或更优越的性能表现。
May, 2023
通过最大化自我博弈回报和最小化与先前发现的约定交互时的回报的方法,我们的技术在多代理合作游戏中生成多样化的约定,以适应人类的约定,并在与真实用户配对时超越人类水平的性能。
Oct, 2023