本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
通过遗传算法,同一物体的不同部分可以被联合训练,得到与分开训练相媲美的性能,该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。
Apr, 2019
提出使用循环神经网络的环境模拟器,以提高效率,改善不同环境的探索,并解决计算效率问题。
Apr, 2017
我们提出了一种新的世界建模方法 PolyGRAD,它利用扩散模型和策略的动作分布梯度,通过一次传递生成整个在政策上的合成轨迹,该方法在竞争力预测错误率方面与最先进的自回归基线相当,并且使得能在 “虚拟中” 进行政策优化的性能表现良好。
Dec, 2023
本文提出了一种在复杂环境中高效训练表现出色的生成模型的方法,通过预测算法和一个表现出色的生成模型,可以在视觉丰富和动态的 3D 环境中形成稳定的信念状态,并且在强型自由基线代理程序中显著提高数据效率。
Jun, 2019
本文研究了基于模型的强化学习方法,特别是对于持续强化学习的世界模型的应用。结论表明,使用世界模型是一种简单且有效的持续强化学习基准。
Nov, 2022
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
本研究研究了三种 LRL 模型的生成式重演(GR)机制,提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明,该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移,缩小了训练样本数量,具有较高的实验价值。
Aug, 2022
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
本研究针对建立连续学习中的状态表示模型问题展开讨论,为保留过去知识的同时高效压缩感知状态信息,我们提出了使用变分自编码器(Variational Auto-Encoders)作为状态表示,并基于生成样本的生成回放(Generative Replay)技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递,还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习,无需使用过去数据。
Oct, 2018