使用生成式的递归神经网络以压缩时空特征的方式进行快速的非监督式学习,模拟了一些常见的强化学习环境。提取的环境模型特征被输入到简洁的进化训练策略中,取得了在各种环境中的最先进成果。最后,我们在由内部环境模型产生的环境中完全训练我们的智能体,并将这个策略转移到了实际环境中。
Sep, 2018
本文研究了基于模型的强化学习方法,特别是对于持续强化学习的世界模型的应用。结论表明,使用世界模型是一种简单且有效的持续强化学习基准。
Nov, 2022
该研究提出了一种基于计算机视觉概念,使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架,该模型可以预测鸟瞰图空间中动态汽车的未来轨迹,并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。
Jun, 2023
该论文提出 L3P 算法,使用稀疏的多步转换学习基于图结构的世界模型并生成 Q - 函数,其在高维连续控制任务上具有优越的性能,是深度强化学习中可扩展规划的重要进展。
Nov, 2020
本研究探索从梦境环境到真实环境的通用方法 Drean2Real。借鉴于领域随机化,结合使用丢失(Dropout)技术,我们使用具有可配置参数的世界模型训练来创建多样的梦境环境,提高控制器从神经网络梦境环境到现实环境转移的能力,并证实了丢失梦幻世界技术是弥合梦境环境和现实环境的差距的有效技术。
Sep, 2021
该论文聚焦于构建基于文本的游戏环境的世界模型,利用知识图谱和自然语言行动生成模型,提升增强学习智能体在该环境下的效率。通过零样本消融实验,表明该方法显著优于现有的文本世界建模技术及其各自贡献的重要性。
Jun, 2021
通过遗传算法,同一物体的不同部分可以被联合训练,得到与分开训练相媲美的性能,该研究进一步证明了深度神经进化在复杂异构体系结构下的有效性。
Apr, 2019
在模型基强化学习中,精心设计的生成模型 —— 状态空间模型可以学习和操作紧凑的状态表述,并且显著降低动作序列预测的计算成本。在广泛的实验中,状态空间模型可以精确捕捉 Atari 游戏的动态,并且提供了高速计算,这使它们在强化学习的决策中具有实用价值。
Feb, 2018
基于强化学习的高度数据驱动方法用于视觉全身人形控制,通过层级世界模型生成指令以执行,实现了在模拟 56 自由度人形机器人的 8 个任务上高性能控制策略的合成。
May, 2024
研究利用特征空间和世界模型提高机器人在可变形物体折叠任务中的学习效率和性能,结果发现使用特征点可以将最佳模型的性能提升 50%,学习效率也可以得到提升。
Oct, 2022