Mar, 2024

采样轨迹的深度高斯协方差网络用于数据有效的策略搜索

TL;DR通过结合轨迹采样和深度高斯协方差网络(DGCN),我们提出了一种在最优控制环境中解决 MBRL 问题的数据高效解决方案,通过三种不同的概率世界模型(高斯过程、贝叶斯神经网络和 DGCNs)比较采用基于密度的不确定性传播的轨迹采样方法,我们在四个不同的知名测试环境中提供了实证证据,表明我们的方法提高了样本效率,同时对于噪声初始状态的鲁棒性也得到了重视。