Oct, 2023

离线强化学习和模仿学习的引导式数据增强

TL;DR通过人工引导的数据增强 (GuDA) 框架实现学习从示范中,以通过离线强化学习和行为克隆算法提取策略,有效地利用少量次优演示来提升机器人控制策略的学习性能。