Mar, 2023

具有真正不等约束的软演员 - 评论算法

TL;DR本篇论文在软性演员批评的强化学习中加入松弛变量,以适当处理不等式约束,最大化策略熵,从而实现了更高的稳定性和更稳定的学习,适用于真实世界的机器人控制。