Jun, 2018

使用逐步相对可达性惩罚副作用

TL;DR该研究提出了一种新的强化学习机制,通过改变基线状态和偏差度量方式,避免了当前惩罚副作用存在的一些不良激励,实验证明该机制的效果优于传统的设计方法。