- 离线强化学习的优化扩散策略
离线强化学习研究了优化策略的方法,使用扩散模型进行模拟,通过首选动作优化提高性能,在稀疏奖励任务中表现出竞争力或卓越性能,同时证明了抗噪声偏好优化的有效性。
- 基于扩散的离线强化学习中的长时程回滚动态模型
探索如何将扩散模型(DMs)的能力作为动力学模型在完全离线环境中解耦,以允许学习策略展开轨迹,并展示了 DyDiff 在离线强化学习中的有效性。
- ICML动态治疗方案中的强化学习需要全面重新审视
通过对超过 17,000 个评估实验的案例研究,我们批判性地检视了当前离线强化学习在动态治疗方案中的应用现状,并提出了评估指标的不一致性、缺乏基线比较、以及现有研究中选择的强化学习表示形式的多样性等关注点。令人惊讶的是,在一些情况下,随机基 - ICLRGTA: 借助导引的增强离线学习中的生成轨迹增强
离线强化学习中,利用生成轨迹增强(GTA)的数据增强策略可以提高数据质量并改善算法性能。
- 有状态约束的离线强化学习
传统离线强化学习方法主要在批量受限的环境中进行,本文通过引入一种名为 “状态约束” 的离线强化学习新框架,专注于数据集的状态分布,大大增强了学习能力并降低了先前的限制。同时,我们还引入了 StaCQ,这是一种性能良好的深度学习算法,并与我们 - 基于特征 - 占据梯度上升的离线强化学习
我们研究了大规模无穷时间折扣马尔可夫决策过程中离线强化学习的问题,当奖励和转移模型在已知特征映射下可线性实现。我们提出了一种新的算法,通过在特征占据空间中进行一种梯度上升的形式来解决这个问题。我们证明了该算法在文献中已知的最不严格的数据覆盖 - 走向强壮的策略:通过对抗攻击和防守增强离线强化学习
该研究提出了一个框架,通过利用先进的对抗攻击和防御来提高离线强化学习模型的稳健性,并以 D4RL 基准进行了评估,结果显示了演员和评论家对攻击的脆弱性以及防御策略在提高策略稳健性方面的有效性,为提高实际场景中离线强化学习模型的可靠性提供了希 - ICML离线强化学习的最大回报序列建模
该论文介绍了最大回报的序列建模概念,提出了 Reinforced Transformer(Reinformer)作为一个整合了最大化回报目标的序列模型。Reinformer 在训练阶段将最大化回报的目标纳入模型,并在推断时引导最优动作的选择 - 改进带有不准确模拟器的离线强化学习
提出一种结合离线数据集和不准确模拟数据的新方法,通过预先训练生成对抗网络模型来适应离线数据集的状态分布,并通过鉴别器重新加权不准确模拟数据,实验证实该方法能够在 D4RL 基准和实际操作任务中比现有方法获得更好的性能。
- 离线强化学习多任务数据共享的悲观值迭代
离线强化学习(RL)在从固定数据集中学习特定任务策略方面显示出有希望的结果。然而,成功的离线 RL 往往严重依赖于给定数据集的覆盖范围和质量。在特定任务的数据集有限的情况下,一种自然的方法是通过来自其他任务的数据集改进离线 RL,即进行多任 - 以触摸为基础的感觉集成技能转移用于机器人家具装配
这篇论文介绍了一种离线强化学习方法,使用触觉反馈在控制循环中,来解决机器人家具装配问题。通过学习高层规划的技能转换模型和一组自适应的技能达成目标策略,这种设计旨在以更通用的方式解决这个长期任务,实现技能的无缝连接。评估结果表明,这种方法在标 - 行为监督调节的离线强化学习
TD3-BST 是一种应用于脱机强化学习算法的不确定性模型,通过指导策略在数据集支持中选择动作,从而比先前的方法更有效地从离线数据集中学习策略,并在具有挑战性的基准测试中取得最佳性能,无需进行特定数据集的调整。
- 单任务持续离线强化学习
本研究提出了一种新的算法,名为基于经验回放的集成离线强化学习,通过引入多个值网络来学习相同的数据集,并通过值网络的离散程度判断策略是否已经学习,以提高单任务离线强化学习网络的性能。
- 离线强化学习的轨迹概括
通过世界转换器进行线下强化学习的离线轨迹泛化方法(OTTO)在 D4RL 基准数据集上验证了其相对于最先进的线下强化学习方法具有显著优势。
- 通过视觉基础模型和离线强化学习增强体感视觉跟踪
提出了一个结合了视觉基础模型和离线强化学习的新框架,以赋予具有体内视觉的智能体进行视觉跟踪任务,并通过使用蒙版重定向机制和多级数据收集策略进一步提高了跟踪结果的稳健性和泛化性。通过对多种高保真度场景进行的评估,结果表明该方法在样本效率、对干 - 跨两个领域利用无标签领域数据的离线增强学习
通过开发一种融合正负无标签学习的离线强化学习算法,该研究论文针对域未标记数据的挑战,有效地识别领域并学习优于基准的策略,以实现域未标记数据的有效利用。
- 政策引导扩散
我们提出了一种使用扩散模型生成基于行为分布的整个轨迹,并通过目标策略引导将合成经验转移到更贴近目标策略的方法,以此代替真实数据进行离线强化学习,并在各种标准离线强化学习算法和环境中取得显著的性能改善。
- 多样化的随机化价值函数:离线强化学习的可证明悲观方法
离线强化学习面临分布偏移和不可靠价值估计,本文提出了一种新策略,采用多样化的随机化值函数估计 $Q$ 值的后验分布,并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正 - ICLR组成保守主义:离线强化学习中的传导式方法
离线强化学习中的分布变化问题通过 COmpositional COnservatism with Anchor-seeking (COCOA) 方法得以解决,该方法在复杂的输入空间中寻找共享分布点和差异,从而提高算法性能。
- AD4RL:用基于价值的数据集进行离线强化学习的自动驾驶基准
本研究提供了自动驾驶数据集和离线强化学习算法的基准,其中包含 19 个数据集,包括真实世界的人类驾驶员数据集,并提供三种真实行驶场景下的七种流行的离线强化学习算法,同时提供了一个统一的决策过程模型作为算法设计的参考框架,为探索现有强化学习方