ICLRJan, 2021

可微分信任域层用于深度强化学习

TL;DR本文提出了可微分的神经网络层来通过闭合形式的投影来执行深度高斯策略的信任区域,为 Gaussian 分布导出了基于 KL 散度、Wasserstein L2 距离和 Frobenius 范数的信任区域投影。实验证明,这些投影层可以实现类似或更好的结果,而且几乎对于具体的实现选择是不敏感的。