KDDJun, 2021

基于置信上界的关系型赌博机知识注入策略梯度

TL;DR本文提出了一种将知识注入到策略梯度上限边界算法中的上下文策略选择方法,并在音乐推荐数据集和各种现实生活数据集上进行了实验分析,结果表明专家知识能够极大地减少总遗憾。