Nov, 2019

具备辅助安全限制的上下文强盗问题的汤普森抽样

TL;DR本文提出了一种新的 Thompson sampling 算法来处理有多个竞争目标和辅助约束的情景下的多结果上下文强化学习问题,并使用贝叶斯优化提供了在实践中导航安全性和性能权衡的方法。