基于隐式 Q 学习的离线强化学习
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
本文介绍了一种新的离线强化学习算法 ICQ,它通过只信任数据集中的状态 - 动作对来有效减轻外推误差,并将其扩展到多智能体任务中,表现出明显的性能优势。
Jun, 2021
我们提出了一种自适应的行动量化方案,通过使用 VQ-VAE 学习状态条件的行动量化,避免了行动空间的指数爆炸问题,并通过离线强化学习方法在基准测试中改进了性能,同时在 Robomimic 环境中的复杂机器人操作任务中,离线强化学习算法通过离散化相对于连续方法实现了 2-3 倍的改进。
Oct, 2023
本论文针对离线强化学习中,在分布转变时计算 Q 值的问题,提出了基于量化回归的 IQL 策略,结合隐含值规范化框架提出了 SQL 和 EQL 算法,实验结果验证了算法的有效性和鲁棒性。
Mar, 2023
本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习,并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明,AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外,该离线 RL 方法在多人在线战场游戏 “王者荣耀” 中能够学习到更具竞争力的 AI 代理。
Jun, 2021
提出了两种算法,利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差,该方法在 D4RL 基准测试中表现出良好的性能。
Jul, 2023
本文提出了一种离线强化学习方法 ILQL,以结合传统强化学习算法的灵活的优化框架和有监督学习的现有数据利用能力及其简明稳定性的特点,以指导语言模型的生成来最大化效用,并在自然语言生成环境中有效地优化高方差奖励函数。
Jun, 2022
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么 IQL 可以使用加权回归进行策略提取。实验结果表明,与 IQL 和 IDQL 相比,我们的方法保持了 IQL 的简单性并解决了隐式策略发现问题,在 D4RL 数据集上取得了与其他 SOTA 离线 RL 方法相媲美或更优的结果。特别是在 Antmaze 和 Adroit 等复杂的稀疏奖励任务中,我们的方法明显优于 IQL 和 IDQL。
May, 2024
提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ),其中通过分配适当的伪 Q 值来积极地训练 OOD 动作,在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。
Jun, 2022