Feb, 2019

非固定奖励分布和延迟反馈过程的多臂赌博策略

TL;DR本文研究了多臂赌博策略在非静态随机回报函数和延迟反馈的情况下的性能,并针对非静态回报函数和延迟反馈的情况提出了一种自适应技术(AG1),在在线电子商务平台上进行了多臂赌博模拟。结果表明,相对于传统的多臂赌博策略,在后悔最小化的情况下,自适应技术表现更优秀。