使用生成环境模型塑造强化学习中的信念状态
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
本文介绍了一种基于模型不确定性估计的机制,通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率,并将隐式的生成建模方法用于训练。实验结果表明,与其他探索方法相比,该算法在提高数据效率方面表现出色。
Nov, 2019
本文提出了一种新型的基于模型的强化学习方法,利用生成模型和时序模型进行环境建模以达到优化智能体表现的目的,该模型可用于部分观察到的 2D 和 3D 环境中进行跨时间点的预测。
Apr, 2018
本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
本研究针对建立连续学习中的状态表示模型问题展开讨论,为保留过去知识的同时高效压缩感知状态信息,我们提出了使用变分自编码器(Variational Auto-Encoders)作为状态表示,并基于生成样本的生成回放(Generative Replay)技术来保持过去知识。我们还提供了一种统计意义上合理的自动环境变化检测方法。该方法不仅可提供高效的状态表示和前向传递,还可避免灾难性遗忘。最后得出的模型能够在有限系统空间内逐增学习,无需使用过去数据。
Oct, 2018
使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。
Sep, 2018
提出了一种利用机器代理的视觉知识学习结构化表示的强化学习算法,并通过辅助损失函数将其融入强化学习目标,在包括 5 种不同机器人的 18 个具有挑战性的可视化仿真环境中,我们的方法比现有的无模型方法表现更好。
Sep, 2023
提出了一种基于奖励模型的框架,它使得机器学习代理能学习到语言指令, 并通过这些指令执行任务,而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离,在简单的网格世界中,使代理能够学习一系列涉及块的交互和对空间关系的理解的指令, 且无需新的专家数据就可以适应环境的变化。
Jun, 2018
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023