Jul, 2023

安全强化学习作为 Wasserstein 变分推理:可解释性的形式方法

TL;DR本研究提出了一种新颖的自适应 Wasserstein 变分优化(AWaVO)方法,利用正式方法提供奖励设计、训练收敛的透明度和顺序决策的概率解释,解决了序列决策问题中奖励函数的解释和相应最优策略的挑战。