Mar, 2024

通过 Dropout 扩展基于学习的政策优化算法以适用于时间相关任务

TL;DR该论文介绍了一种基于模型的方法,用于针对高度非线性环境中的自主代理训练反馈控制器。我们希望该训练策略确保代理满足以离散时间信号时序逻辑(DT-STL)表达的特定任务目标。为了解决长时间跨度任务目标的问题,我们引入了一种基于随机梯度近似算法的梯度近似算法,并提出了适用于复杂规范的 DT-STL 的新的平滑语义。