Nov, 2023

通过概率模型为基础的元强化学习实现数据高效的任务泛化

TL;DRPACOH-RL 是一种基于模型的元强化学习算法,用于有效地适应控制策略对变化的动力学。它通过元学习动力学模型的先验知识来实现对新动力学的快速适应,同时利用正则化和认知不确定性量化来引导探索和数据收集,从而在数据有限的情况下实现正向传递,适用于机器人等领域。实验结果表明,PACOH-RL 在适应新动力学条件方面优于基于模型的强化学习和基于模型的元强化学习基准,并在真实的机器人车中展示了在数据稀缺条件下实现高效强化学习策略自适应的潜力。