Feb, 2022

具备不确定因素感知的普适策略系统识别

TL;DR本文介绍了一种名为 Uncertainty-aware policy search 的策略搜索方法,通过结合与给定环境相关的 UPN 策略,采用类似 DR 的方法,使用鲁棒性贝叶斯优化来制定强鲁棒性策略。在一系列嘈杂的连续控制环境中的实验证明了该方法的有效性。