Feb, 2023

基于遗憾的优化方法用于强化学习的鲁棒性

TL;DR该论文提出一种更为积极的方法改进深度强化学习中的强健性,采用最小化最大后悔作为优化方法,并证明该方法可显著提高性能。