Jan, 2024

带阶段约束的情境强化学习

TL;DR我们在上下文感知强化学习中研究了阶段限制的情况,并提出了一种上界置信区间算法来平衡探索和约束满足,同时证明了其遗憾界。