BriefGPT.xyz
大模型
Ask
alpha
关键词
inequality constraint
搜索结果 - 1
具有真正不等约束的软演员 - 评论算法
本篇论文在软性演员批评的强化学习中加入松弛变量,以适当处理不等式约束,最大化策略熵,从而实现了更高的稳定性和更稳定的学习,适用于真实世界的机器人控制。
PDF
a year ago
Prev
Next