Jan, 2023

基于高效信任区域的安全增强学习与低偏差分布演员 - 评论家

TL;DR本文提出了一种基于信任区域方法的安全分布式强化学习方法,包括针对分布式评论家的估计偏差的降低,用 Q 函数表示的信任区域方法的新代理以及从不安全的初始代理找到满足所有约束的代理的梯度集成方法,实验表明,该方法表现出最小的约束违规,同时实现了高收益。