Oct, 2023

多功能安全强化学习的约束条件策略优化

TL;DR我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditioned Variational Inference (CVI) 两个关键模块,在训练效率和零 - shot 适应能力方面超过基准,同时在安全性和任务性能方面保持一个高水平。