本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型,并利用该世界模型进行无监督学习,学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入,我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练,并将该策略传输回实际环境中。
Mar, 2018
本文提出了一种形式化方法,通过学习动态模型和观察状态转移示例来导出世界程序,并将其作为复杂规划任务的模拟器,以进行强化学习。作者强调了最近的应用,并提出了基于世界程序规划的挑战,以评估学习算法的性能。
Dec, 2019
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
Jun, 2021
该研究使用学习的潜在状态空间模型,结合目测模型强化学习方法,提出了一种优化潜在状态轨迹的 LatCo 方法,来解决长时程、奖励稀疏的任务。通过序列规划,相比于之前使用的射击方法,该方法在历经时间过程中的效果更好。
人工智能中的持久挑战是控制系统以实现期望的行为。本研究介绍了一种基于梯度的规划方法,利用可微的世界模型,对比了其他基于 MPC 的方法和基于策略的算法,并在大多数任务中,在具有样本效率的设定下,实现了与其他方法相媲美甚至更好的性能。此外,引入了一种将策略网络和基于梯度的 MPC 相结合的混合模型,优于纯粹的基于策略的方法,这为在复杂的现实世界任务中基于梯度的规划与世界模型带来了希望。
Dec, 2023
本文研究了基于模型的强化学习方法,特别是对于持续强化学习的世界模型的应用。结论表明,使用世界模型是一种简单且有效的持续强化学习基准。
Nov, 2022
本文采用一种数据驱动的策略和基于图像的规划,应用于 3D 环境中的导航系统,通过机器学习方法实现了图像哈希表上的最短路径规划,比传统符号算法更优秀。
Jul, 2020
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
利用大型语言模型的规划能力,提出一种可学习的长期推荐规划框架,结合强化学习和层次学习。实验证实该框架在学习长期推荐规划方面具有优势。
Feb, 2024
在开放世界中,我们介绍了一个适应新颖性的规划领域模型的方法,通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在,并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准 CartPole 问题上进行实证评估,结果表明我们的方法可以快速且可解释地处理一类新颖性。
Mar, 2023