强化学习中的时间离散化特异性
本研究证明了 Q-learning 不存在于连续时间中,指出时间离散化的敏感性是 Deep Reinforcement Learning 具有鲁棒性的关键因素,提出了一种无模型的强化学习算法,能够在不同的时间离散化下稳健地工作。
Jan, 2019
提出了一种名为 SusACER 的离策略强化学习算法,它结合了不同时间离散化设置的优势,通过始初稀疏时间离散化逐渐转换为精细离散化,在机器人控制环境中进行分析,证实该算法在 Ant、HalfCheetah、Hopper 和 Walker2D 等场景中优于现有技术。
Aug, 2023
本篇论文介绍了一种基于模型的适应性离散技术,在大型(潜在连续的)状态 - 动作空间中设计一种高效的基于情节的强化学习算法,并通过实验证明,该算法在收敛速度和存储空间利用效率方面显著优于固定离散化。
Jul, 2020
通过使用泊松时钟模型与连续时间,本研究旨在克服强化学习中离散时间与离散状态的局限性,并且提出了一个算法来应对连续时间下的学习和规划任务,其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。
Sep, 2023
本研究提出一种名为 CTCO 的框架,使学习智能体通过选择变量持续时间的子策略来实现在可能的情况下以低频率运作,并在必要时以高频率运作,从而克服了决策频率选择的困难。
Dec, 2022
研究了强化学习在连续时间和空间的设置下的应用,提出了购买力占据时间的概念,并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验,验证了此方法的有效性和优势。
May, 2023
探索如何通过一个稳健的框架解决非稳态环境下的强化学习问题,其中该框架通过识别不同的环境、触发探索、将先前环境的知识保留下来以及保护系统性能来训练 RL agent,并且在解决一些系统问题时进行了验证。
Jan, 2022
优化系统学习离散时间决策进程的强化学习算法,以减少与系统的交互次数并提高性能,同时提出了时间自适应控制和感知(TaCoS)框架以及 OTaCoS 模型算法。
Jun, 2024
通过推广折扣问题的公式,使用延迟目标函数家族解决通过强化学习问题中存在的样本低效和探索问题,并用所设计的算法成功地解决了硬的探索问题和改善了经典模拟机器人基准测试的样本效率。
Sep, 2022