ICMLJun, 2020

具有中间观测的非平稳延迟赌博机

TL;DR介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下,如何利用中间信号解决长期行为稳定性问题的计算机算法,并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。