Sep, 2023

鲁棒 离线强化学习 -- 确认置信区间

TL;DR开发了一种算法,并使用随机平滑来获得对给定策略的离线鲁棒性认证,证明了其有效性,并在不同环境实验证明了算法的正确性。