Jun, 2024

基于模型的强化学习的误差感知边界框推断

TL;DR基于模型的强化学习中,模拟经验往往被视为与真实环境的经验等价。然而,当模型不准确时,它可能对策略学习造成灾难性干扰。相反,智能体可以学习模型的准确性,并仅在可以提供可靠预测时有选择地使用它。我们通过实证研究探讨了模型不确定性测量与选择性规划,并展示了最佳结果需要分布不敏感推理来估计基于模型的更新的不确定性。为此,我们提出并评估了一种基于边界框的推理方法,它在可能状态和其他量的边界框上进行操作。我们发现,基于边界框的推理能够可靠地支持有效的选择性规划。