BriefGPT.xyz
Ask
alpha
关键词
dynamic applications
搜索结果 - 1
多功能安全强化学习的约束条件策略优化
我们提出了一种适用于实际动态应用的 Conditioned Constrained Policy Optimization (CCPO) 框架,通过引入 Versatile Value Estimation (VVE) 和 Conditio
→
PDF
9 months ago
Prev
Next