本文提出了一个名为Cross-Entropy Guided Policies (CGP)的新方法来将Q-learning与使用Cross-Entropy Method (CEM)的迭代采样策略相结合,以提高其在连续值动作域中的运行速度和稳定性。
Mar, 2019
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文提出了一种利用扩散模型表示策略的离线强化学习方法(Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数D4RL基准任务中表现出卓越的性能。
Aug, 2022
该论文提出了一种有效的扩散策略(EDP),用于在线学习优化策略,可以解决传统Diffusion-QL的训练效率低和与基于最大似然的RL算法不兼容的问题。研究表明,EDP可将扩散策略的训练时间缩短至5小时,在D4RL基准测试中实现了新的最先进结果。
May, 2023
提出了两种算法,利用行为策略的Q函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在D4RL基准测试中表现出良好的性能。
Jul, 2023
我们提出了一种用于离线、离线到在线和在线三种典型强化学习设置的高效且表达力强的策略表示方法,称为一致性策略,以一种演员-评论家风格的算法应用连续模型,展现了其在多模态数据、计算效率和性能方面的优势。
Sep, 2023
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
May, 2024
离线强化学习中的扩散信任 Q 学习方法(DTQL)通过引入扩散模型作为一个强大和有表达力的策略类,消除了训练和推理过程中迭代去噪采样的需要,大大提高了计算效率,并在多个基准任务中展现了优越的性能和算法特性。
这篇论文介绍了一种名为Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过Kullback-Leibler(KL)约束策略迭代来规范化目标策略。该方法在D4RL基准上的实验表明,在几乎所有环境中,其性能优于现有的方法。
本研究针对在线强化学习方法在资源受限或模拟环境中对实时数据的高需求这一问题,提出了一个框架,将扩散模型与近端策略优化算法结合,以生成高质量的虚拟轨迹,从而增强样本效率和探索性。实验结果表明,该方法在复杂任务中显著提升了累积奖励、收敛速度和策略稳定性,为高维复杂任务中的强化学习提供了新的理论与实践方法。
Sep, 2024