协同学习经验游戏和世界模型
本文提供了复杂多代理交互的经验博弈理论上界,研究了元博弈理论、博弈均衡、数据样本量、非对称游戏与多代理学习算法,并在 AlphaGo、Colonel Blotto 和 Leduc Poker 等不同情境下进行实证探究其进化动态。
Mar, 2018
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明,这种方法能够成功地计算近似 Nash 平衡,并且可以产生与人类谈判相当的代理人。
Feb, 2023
本研究使用强化学习训练任务完成对话代理人,在集成世界模型的基础上通过使用模拟经验有效提高训练效率,通过引入开关和主动学习改进 Deep Dyna-Q 框架,提出了 Switch-based Active Deep Dyna-Q(Switch-DDQ)算法,同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。
Nov, 2018
该研究提出了一种称为协作世界模型(CoWorld)的转移学习方法,在离线数据集下为视觉强化学习模型提高性能,并成功缓解了价值函数的过高估计问题。
May, 2023
研究利用特征空间和世界模型提高机器人在可变形物体折叠任务中的学习效率和性能,结果发现使用特征点可以将最佳模型的性能提升 50%,学习效率也可以得到提升。
Oct, 2022
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
Jun, 2021
本文介绍了一种基于模型的规划策略,使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义,在连续状态问题上取得了比回放 buffer 更好的表现。
Jun, 2018
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018