Sep, 2023

连续控制中的政策优化问题:噪声邻域下的回报景观

TL;DR通过研究回报景观,我们对连续控制的深度强化学习代理的不稳定性行为提供了新的视角,并揭示了一维度的策略质量,最终我们开发了一个分布感知的程序以提高策略的鲁棒性。