ICMLJan, 2022

基于行列式点过程的神经网络采样器在集成强化学习中的应用

TL;DR提出了一种基于 Determinantal Point Process 的神经网络采样器 DNS,可在强化学习算法中采用子集的方式减少训练 Neural Networks 所需的时间和计算成本,MuJoCo 环境上对 DNS 的实验表明在使用不到 50% 的运算资源(FLOPS)的情况下,DNS 的 REDQ 性能高于 REDQ 基线模型的平均累积奖励。