Sep, 2023

融合丢失不确定性和轨迹采样的实用概率模型深度强化学习

TL;DR本研究提出了一种基于神经网络的概率模型强化学习方法,利用 Monte-Carlo dropout 和轨迹采样相结合的 DPETS 框架来稳定预测系统不确定性,并通过设计适应神经网络拟合误差的损失函数实现更准确的概率模型预测。在评估中,DPETS 在多个控制任务中表现优于相关 MBRL 方法和无模型基准,并实现了显著的样本效率提高。