Jul, 2022

连续时间下的 q 学习

TL;DR本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式,研究了连续时间下的 Q 学习,构建了独立于时间离散化的 q 函数学习理论,并应用该理论设计了 actor-critic 算法来解决强化学习问题,同时通过模拟实验验证了算法性能。