协同学习经验游戏和世界模型

May, 2023

Co-Learning Empirical Games and World Models

Max Olan Smith, Michael P. Wellman

TL;DR探索协同学习游戏决策制定中的世界动力学和策略交互两方面，实现了一种新算法 Dyna-PSRO，在部分可观察的一般和博弈中计算出的遗憾解决方案比基线算法 PSRO 要低，所需收集的玩家 - 游戏交互数据也少得多。

Abstract

game-based decision-making involves reasoning over both world dynamics and strategic interactions among the agents. Typically, empirical models capturing these respective aspects are learned and used separately. We investigate the potential gain from co-learning these elements: a

game-based decision-making world model empirical game strategy profiles partially observable general-sum games

发现论文，激发创造

一种广义经验博弈理论分析方法

本文提供了复杂多代理交互的经验博弈理论上界，研究了元博弈理论、博弈均衡、数据样本量、非对称游戏与多代理学习算法，并在 AlphaGo、Colonel Blotto 和 Leduc Poker 等不同情境下进行实证探究其进化动态。

Mar, 2018

在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念

本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明，这种方法能够成功地计算近似 Nash 平衡，并且可以产生与人类谈判相当的代理人。

Feb, 2023

组合：基于组件的世界模型用于实体多主体协作

通过在视觉观察的基础上模拟多个智能体的动作，提出一种全新的统一规划框架，通过生成模型和组合世界模型实现具体任务中的多智能体合作规划。

Apr, 2024

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

协作世界模型：一种在线 - 离线迁移强化学习方法

该研究提出了一种称为协作世界模型（CoWorld）的转移学习方法，在离线数据集下为视觉强化学习模型提高性能，并成功缓解了价值函数的过高估计问题。

May, 2023

具有结构化世界模型的样本高效机器人学习

研究利用特征空间和世界模型提高机器人在可变形物体折叠任务中的学习效率和性能，结果发现使用特征点可以将最佳模型的性能提升 50％，学习效率也可以得到提升。

Oct, 2022

使用多智能体强化学习理解世界以解决社会困境

本论文采用多智能体强化学习与世界模型相结合的方法来研究社会困境中智能体的协作行为，并证明通过使用世界模型可以引导智能体实现复杂的协调行为。

May, 2023

学习基于知识图谱的文本环境世界模型

该论文聚焦于构建基于文本的游戏环境的世界模型，利用知识图谱和自然语言行动生成模型，提升增强学习智能体在该环境下的效率。通过零样本消融实验，表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。

Jun, 2021

组织体验：对连续状态领域基于样本规划的回放机制的深入探讨

本文介绍了一种基于模型的规划策略，使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义，在连续状态问题上取得了比回放 buffer 更好的表现。

Jun, 2018

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018