用于离线强化学习的Q值正则化决策卷积变换器
本文基于序列建模思路,提出一种将强化学习抽象为序列建模问题的框架,使用Transformer架构和相关的语言建模技术(如GPT-x和BERT)来解决增强学习任务,其中提出的Decision Transformer模型可以通过自回归模型来输出未来的动作并获得预期回报,其性能在Atari、OpenAI Gym和Key-to-Door等实验中达到了业界领先水平。
Jun, 2021
本文提出了基于序列建模的决策转换器(ODT)算法,该算法在离线预训练和在线调整中融合了序列级熵正则化和自回归建模目标,以实现高效的探索和调整。实验证明,在 D4RL 基准测试中,ODT 在绝对性能方面与最先进的方法具有竞争力,在微调过程中展现出更显著的提高。
Feb, 2022
该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式:Q-Learning、Imitation Learning和 Sequence Modeling的表现,并发现当接收到低质量数据并且奖励稀少时,Sequence Modeling更优,因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。
May, 2023
本文介绍了一种用于训练多任务策略的可扩展强化学习方法,该方法可以利用人类示范和自主收集的数据。通过使用Transformer作为Q函数的可扩展表示方法,并应用于离线时间差分备份的训练中,我们称之为Q-Transformer。通过将每个动作维度离散化并将每个动作维度的Q值表示为单独的标记,我们可以应用有效的高容量序列建模技术进行Q学习。我们还提出了几个设计决策,使得Q-Transformer在离线强化学习训练中表现出良好性能,并且在大型多样的真实世界机器人操纵任务套件上,Q-Transformer优于先前的离线强化学习算法和模仿学习技术。项目的网站和视频可在此URL找到。
Sep, 2023
通过使用多实体并行处理的结构,本研究提出了一种名为Decision ConvFormer(DC)的新型动作序列预测模型,它在标准的强化学习基准测试中表现出了最先进的性能,并且对数据的底层含义有更好的理解和增强的泛化能力。
Oct, 2023
决策Transformer是一种创新算法,利用了转换器架构在强化学习中的最新进展;我们提出一个序列建模框架来研究通过分层强化学习进行顺序决策的方法,并展示了DT作为该框架的一个特例,同时讨论了潜在的失败选择;受到这些观察的启发,我们研究了如何联合优化高层和低层策略以实现拼接能力,从而进一步发展了新的离线强化学习算法;我们的实证结果清楚地表明,所提出的算法在多个控制和导航基准测试中明显优于DT;我们希望我们的贡献可以在强化学习领域中推动转换器架构的整合。
Nov, 2023
离线强化学习中的CGDT方法结合了基于值函数的方法和决策Transformer的轨迹建模能力,通过整合学习的值函数,保证了指定目标回报和动作预期回报之间的直接对齐,从而弥合了RCSL的确定性和基于值函数方法的概率特性之间的差距。在随机环境和D4RL基准数据集上进行的实证评估表明,CGDT方法优于传统的RCSL方法,展示了CGDT在离线强化学习领域中提升技术水平并扩展RCSL在广泛强化学习任务中的适用性的潜力。
Dec, 2023
从离线数据集中学习策略通过离线强化学习 (RL) 在扩展数据驱动的决策和避免不安全和昂贵的在线交互方面具有潜力。然而,传感器或人类收集的现实世界数据往往包含噪声和错误,这给现有的离线 RL 方法带来了重大挑战。本研究表明,在数据损坏的情况下,基于时序差分学习的传统离线 RL 方法往往表现不佳,尤其是在数据量有限的情况下。这表明序列建模在解决离线 RL 数据损坏方面具有潜力。为了进一步发挥序列建模方法的潜力,我们提出了鲁棒决策 Transformer (RDT),并结合了几种鲁棒技术。具体而言,我们引入了高斯加权学习和迭代数据校正来减小数据损坏的影响。此外,我们利用嵌入丢弃增强模型对错误输入的抵抗力。在 MoJoCo、KitChen 和 Adroit 任务上的大量实验证明 RDT 在各种数据损坏情况下相比先前的方法具有更好的性能。此外,在将训练时数据损坏与测试时观察扰动相结合的具有挑战性的设置中,RDT 表现出了卓越的鲁棒性。这些结果凸显了鲁棒序列建模在从嘈杂或损坏的离线数据集中学习方面的潜力,从而促进了离线 RL 在实际任务中的可靠应用。
Jul, 2024
本研究针对决策变换器在线微调不足的问题进行了理论分析,指出传统的回报期望计算方法对微调过程的负面影响。通过实验证明,将TD3梯度加入在线决策变换器的微调过程显著提升了其在线微调性能,尤其是在低奖励离线数据预训练的情况下。这为进一步改善决策变换器提供了新的方向。
Oct, 2024
本文针对离线偏好强化学习中准确建模逐步奖励的挑战,提出了“数据集内轨迹返回正则化(DTR)”方法。DTR通过条件序列建模和集成归一化技术,平衡了行为策略的保真性与基于高奖励标签的最佳行动选择,从而有效减轻了奖励偏差引发的轨迹拼接不准确问题,实验证明其优于其他先进基准。
Dec, 2024