Dec, 2023

基于信任域的少样本模拟实现增强学习

TL;DR使用仿真技术最小化对真实世界交互的需求,在少样本离线动力学设置下,引入了一种新方法,通过惩罚来限制仿真训练策略引发的轨迹,以解决常规强化学习代理倾向于利用仿真不准确性的挑战。在各种环境中评估了我们的方法,包括代表不同仿真到真实条件的高维系统,并且在大多数测试场景中,我们的方法相比现有基线模型表现出改进。