Sep, 2022

带拓扑约束的多目标策略梯度

TL;DR本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。