AAAINov, 2022

Bayesian 逆强化学习下的演示充分性自主评估

TL;DR本文提出一种基于贝叶斯反向强化学习和风险价值的自我评估方法,使得能够从演示中学习的智能体能够计算其性能的高置信度界限,并使用这些界限确定何时具有充足数量的演示。