MMAug, 2019

倾向性强化学习的竞争后验抽样

TL;DR使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法 DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的 RL 的后验保证率。