- 在真实环境中微调离线世界模型
通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 - - 在外科机器人环境中利用最优传输优化离线强化学习
介绍了一种新颖的算法 Optimal Transport Reward(OTR)标记,用于给离线轨迹分配奖励,并且使用少量高质量的专家示范来帮助计算奖励信号。通过在手术机器人学习领域展示 OTR 的有效性,强调其多样性和促进强化学习在各个领 - 离线训练用于在线 RL: 解耦策略学习以减轻探索偏见
在在线 RL 或微调中,使用乐观探索策略来探索新的状态和行为是可取的,我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架,通过在在线微调结束时进行离线训练来恢复更好的策略。
- 离线强化学习中 Q 值离散度的理解、预测和改善
在离线增强学习中,离线 Q 值估计的发散问题一直是一个突出的问题。本研究通过对机制的全面理解和对模型架构的改进,提出了解决发散问题的新途径,其中包括基于离线 RL 的自激励模式和通过 LayerNorm 架构提升性能。
- H2O+: 混合离线和在线强化学习的改进框架与动态间隙
通过模拟和实际机器人实验,我们展示了新算法 H2O + 在跨领域在线和离线强化学习算法方面的高性能和灵活性。
- 通过价值函数预训练的互联网视频机器人离线强化学习
本研究通过开发一种基于时间差分学习的系统,在机器人离线增强学习中利用大规模人类视频数据集,展示了通过视频数据集进行价值学习相较于其他视频数据学习方法更具有推广性,并且与机器人多样化数据的离线增强学习方法结合,产生在操作任务中执行更好、更稳定 - 领域:温和保守的基于模型的离线强化学习
这篇论文提出了一种不需要模型不确定性估计的温和保守型基于模型的离线强化学习算法 (DOMAIN),通过引入模型样本的自适应抽样分布来调整模型数据惩罚,理论上证明了该算法在区域外学习到的 Q 值是真实 Q 值的下界,与先前的基于模型的离线强化 - 对比例子为基础的控制
基于示例的学习方法提出了一种离线控制方法,该方法学习了一个隐式模型来表示多步转变的 Q 值,并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。
- ICML强化学习中一步正则化与评论员正则化之间的联系
该研究论文介绍了离线强化学习中的正则化方法,探讨了一步方法和评论家正则化方法之间的联系,并表明在需要强正则化的强化学习问题上,一步方法可能与评论家正则化方法具有竞争力。
- 优先轨迹回放:一种面向数据驱动型强化学习的回放内存
本研究提出一种记忆技术 (Prioritized) Trajectory Replay (TR/PTR) 以优化 offline RL 的效率和性能。该方法将采样视角扩展到轨迹上,具有更全面的信息提取能力,并应用于现有的 offline R - 政策导向的设计:离线策略优化的保守测试时间适应
本文提出了 DROP 方法,通过离线学习一个 MBO 分数模型在内部级别上进行优化,在外部级别上进行优化以获得奖励最大化并通过引入行为嵌入和保守规则限制,使得 DROP 具备了测试时间自适应能力。与传统离线 RL 方法相比,DROP 取得了 - 自适应数据采集的增强学习离线策略评估
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
- 分布式训练的好处:强化学习小损失下限
探讨了分布式强化学习的优势,通过小损失边界证明了从非分布式方法中获得的边界不如小成本边界强。提出了在线分布式 RL 算法和基于启发式原则的离线 RL 算法,分别证明了其小损失的 PAC 边界和新颖的鲁棒性质。
- 增加覆盖分布的离线强化学习
本文研究在函数逼近的情况下,从已有数据集合学习最优策略的离线强化学习问题。研究发现,本文提出的一种简单基于边缘重要采样的算法,可以在数据集合的覆盖率不完整、函数类弱可学习的条件下,通过附加覆盖分布的先验知识来实现理论上的有限次样本保证,同时 - IJCAI面向可推广的交易执行的强化学习
优化交易执行是以最低交易成本在给定时间内出售(或购买)一定数量的资产。本研究主要针对优化交易执行中的过拟合问题进行全面研究,提出了离线强化学习模型(ORDC)来模拟最优交易执行,并通过学习紧凑的上下文表示来有效缓解过拟合问题。实验结果表明, - ICLR使用轨迹解释强化学习决策
本研究提出了一种基于训练中遇到的轨迹来解释训练好的 RL 代理决策的方法,并通过在离线环境中进行网格世界、视频游戏和连续控制等不同领域的实验,展示了这种方法在可解释性和可扩展性方面的有效性。
- 利用分解的行动空间实现医疗保健中高效的离线强化学习
本文研究了如何在强化学习的组合行为空间中通过线性 Q 函数分解来更好地处理少见子行动组合的情况,并对该方法进行了理论分析和实验评估,证明了它可以提高数据效率和策略优化的性能。
- IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法
使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型,提出了一个新的 actor-critic 模型,称为 Implicit Diffusion - 利用离线数据加速程序生成环境下的强化学习
研究了强化学习中采用离线轨迹进行数据增强的方法,发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略,预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。
- 强化学习中最小化 - 最优化奖励无关探索
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3