Jan, 2020

约束上置信强化学习

TL;DR本文提出了一种名为 C-UCRL 的算法,扩展了上置信度强化学习的范围,解决了在奖励函数、约束和转移核函数均未知的情况下探索未知、潜在不安全的环境问题,并在学习的过程中满足奖励约束条件,具有亚线性后悔度。