Aug, 2023

软分解策略评论者:弥合连续控制与离散 RL 的差距

TL;DR这篇论文介绍了 SDPC 架构,它将软强化学习和演员 - 评论家技术与离散强化学习方法相结合,以克服连续控制问题的挑战,实现了在多个连续控制任务中优于当前最先进的方法的表现。