KDDJun, 2021

延迟反馈的平滑顺序优化

TL;DR研究表明,采用经验贝叶斯收缩方法对赌博学习中的奖励估计进行优化,并基于窗口累积输入估计平滑的奖励估计,以应对延迟反馈和非稳态奖励导致的不完全知识问题,并通过数量模拟验证了该提案的优越性,可以在速度和稳定性之间取得平衡,为人类 - 有回路的顺序优化提供便利。