MMAug, 2019
倾向性强化学习的竞争后验抽样
Dueling Posterior Sampling for Preference-Based Reinforcement Learning
Ellen R. Novoseller, Yibing Wei, Yanan Sui, Yisong Yue, Joel W. Burdick
TL;DR使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法 DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的 RL 的后验保证率。