Oct, 2023

多功能安全强化学习的约束条件策略优化

TL;DR我们提出了一种适用于实际动态应用的Conditioned Constrained Policy Optimization (CCPO)框架,通过引入Versatile Value Estimation (VVE)和Conditioned Variational Inference (CVI)两个关键模块,在训练效率和零-shot适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。