Oct, 2022

学习违反最小的连续控制以满足不可行的线性时间逻辑规范

TL;DR本文研究了基于深度强化学习的模型无关框架来解决复杂高级任务下的连续时间控制综合问题,并提出了一种基于采样路径规划算法来满足要求的方案,旨在降低深度强化学习在解决长期任务时的局限性和探索复杂环境问题