ICLRFeb, 2024

基于模型的规划代理行为保证的奖励上界

TL;DR近年来,对机器学习代理在野外,尤其是机器人领域的可信度产生了日益浓厚的兴趣,以提供行业的安全保证。我们的研究工作主要关注保证基于模型的规划代理在特定未来时间步达到目标状态的问题,通过展示目标状态的奖励存在一个下界,当该奖励低于该下界时,无法达成此类保证,并通过推广展示如何实现多个目标之间的优先级。