Dec, 2023

基于数据增强的模型驱动增强学习用于解决实际迷宫游戏的高样本效率学习

TL;DR通过基于模型的强化学习技术,本研究提出了一种用于导航和解决迷宫游戏的机器人系统的开发与训练。该方法通过从摄像头图像中提取低维观测以及裁剪和校正的以迷宫当前位置为中心的图像块,为迷宫布局提供了有价值的信息。控制策略的学习完全在物理系统上进行,使用基于模型的强化学习方法,其中沿着迷宫路径的进展作为奖励信号。此外,我们利用系统固有的对称性增加了训练数据。因此,我们的方法通过仅使用 5 小时的真实世界训练数据,在极短时间内成功解决了一种流行的真实世界迷宫游戏。