ICMLJan, 2019

上下文强化学习中的热启动:鲁棒地结合监督学习和 Bandit 反馈

TL;DR本文研究了同时利用有标签的监督数据和上下文匹配数据进行学习的可行性,提出并证明了对于两种数据源之间成本分布不匹配的情况下具有鲁棒性的无遗憾算法,通过大量数据集的实证研究表明了我们的方法既实用又可行。