基于强化学习的路径规划:一种策略迭代方法
本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。
May, 2008
本文研究了在没有先验动态知识的情况下,利用强化学习算法(如时间差分、策略梯度、价值函数逼近)对基准车杆动力系统进行控制的最优控制策略,进一步提出了将强化学习和摆起控制器相结合的新方法。
Oct, 2018
发现有用的时间抽象,以选项的形式展现,被广泛认为是将强化学习和规划应用于越来越复杂的领域的关键。在 AlphaZero 中,借鉴专家迭代方法的经验成功,我们提出 Option Iteration 作为选项发现的相似方法,该方法学习一组选项策略以匹配未来某一时点的搜索结果,从而在具有挑战性的规划环境中比原始动作的规划算法和专家迭代的单一策略学习展示出明显的优势。
Oct, 2023
本文提出了一种使用深度强化学习来自动调整像素区域参数,以解决图像处理中优化的问题,实验表明,该方法可以让调优后的重建 CT 图像质量达到手动调整的水平甚至更好。
Nov, 2017
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
本文介绍了一种基于本地回滚算法的多智能体决策方法,该方法通过配合其他智能体的协调信息,在每个阶段使每个智能体的决策都能够独立计算,并且与智能体数量无关。此外,我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率,并证明了本文算法可以收敛到智能体的最优策略。
Sep, 2019