Jan, 2024
使用自由形式的自然语言约束和预训练语言模型的安全强化学习
Safe Reinforcement Learning with Free-form Natural Language Constraints and Pre-Trained Language Models
Xingzhou Lou, Junge Zhang, Ziyan Wang, Kaiqi Huang, Yali Du
TL;DR利用预训练语言模型的先验知识,我们的方法可以在遵守给定约束条件的情况下,理解复杂约束并学习安全策略,而无需任何阶段的真实成本。