Oct, 2022

可证明安全的二进制反馈强化学习

TL;DR提出了一种名为SABRE的元算法,可以用于任何MDP环境中,并接收提供二进制状态/动作对 safety feedback 的离线oracle, 通过主动学习在训练过程中控制查询oracle的数量,并且在合适的技术假设下能保证不会采取不安全操作,最终获得高概率的近似最优安全策略。