Feb, 2023

针对随机策略的无信赖区域策略优化

TL;DR本文提出了一个名为TREFree的算法,该算法采用广义代理目标来替代策略上的可信区间约束并在实践中通过保守优化广义目标来有效实施,从而获得更好的策略绩效和样本效率。