Sep, 2019

未知协同收益游戏中无悔学习

TL;DR本文提出了一种利用 Gaussian processes 将对手行为的观察信息和不完全信息反馈结合起来的算法 GP-MW,通过运行 MW 方法获得最佳效果,同时实验室演示了在交通路由和电影推荐等实际应用中其性能比现有算法更优秀。