BriefGPT.xyz
Ask
alpha
关键词
lagrangian relaxation technique
搜索结果 - 2
SCPO: 带安全评论家策略优化的安全强化学习
本研究介绍了一种新的安全强化学习算法(Safety Critic Policy Optimization,SCPO),通过引入安全评判机制,该算法能够自动平衡遵守安全限制和最大化奖励之间的权衡,并在实证验证中证明了其有效性。
PDF
8 months ago
带安全约束的保守分布式强化学习
本文提出了一种名为约束保守分布最大后验策略优化(CDMPO)的离线强化学习算法用于安全探索中的约束决策问题,其中利用分布式强化学习方法准确估计 Q 函数和 C 函数,并利用保守的价值函数损失来减少违反约束的次数,同时使用加权平均比例积分微分
→
PDF
2 years ago
Prev
Next