循环环境仿真器
使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。
Sep, 2018
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
本文提出并评估了两种基于卷积神经网络和循环神经网络的深度神经网络架构,能够生成高维度视频的长期预测并取得了良好的可视化效果和控制功能。
Jul, 2015
该论文研究使用虚拟环境训练 CNN 模型的有效性,并针对城市语义理解提出了一种简单的概率场景模型,开发了参数化渲染工具进行数据综合,并系统地探索了真实感水平对 CNN 模型普适性的影响以及域自适应概念,以减少性能偏差。
May, 2016
本文介绍了 GameGAN 这个生成模型,它通过学习代理与环境交互中的表现来模拟图形游戏环境,并通过内部环境地图和动静分离的方式实现更高的可解释性和更广泛的应用。
May, 2020
本文提出了一种基于 ViZDoom 的复杂三维非稳态任务的 CRLMaze Continual 学习策略,可以在非稳态的环境下进行端到端无模型学习,并与其他基线方法相比表现出竞争力。
May, 2019
使用离散自编码器来处理动作在随机环境中引起的多种可能性,再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量,明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL 问题中的表现。
Jun, 2021
通过使用机器学习,该研究提出了一种能够通过观察图像数据和相关动作对来学习环境行为并进行建模的高质量神经模型,称为 DriveGAN,不需要监督信号训练控制模型,并在多个数据集上进行了训练和测试,表现优于之前的数据驱动模拟器,实现了对场景和非玩家对象的各个方面进行控制的新功能。
Apr, 2021