- KDD城市集中的多目标离线强化学习与对比数据共享
MODA 是一个多任务线下强化学习方法,通过对比数据共享来解决线下强化学习中的数据稀缺性和异质性问题,并且利用集成动力学模型和生成对抗网络构建鲁棒的马尔可夫决策过程,显著提升了城市决策过程。
- 高效离线强化学习:批评者至关重要
最近的研究表明,在离线强化学习中使用有监督方法(不使用时序差分学习)既有益处又有局限性。本文提出了一种取长补短的方法,首先通过有监督学习来学习行为策略和评论家,然后再通过离线强化学习进行改进。具体而言,我们通过使用常被忽视的提供的离线轨迹中 - ICML离线强化学习中基于示例的最优订单界限与偏好反馈
我们提出了一种称为 RL-LOW 的算法,用于处理离线强化学习中的优化动作问题,针对偏好反馈情况下的线性未知参数隐式奖励,提出了实例相关的上下界并拓展到隐私保护设置。
- 最优奖励标注:连接离线偏好与基于奖励的强化学习
提出了一个通用框架来连接偏好反馈和标量奖励,使得现有的离线 RL 算法能够适应偏好反馈,实验证明该框架加上不同算法可以获得与实际奖励训练相媲美甚至优于离线 PBRL 算法的学习效果。
- DiffPoGAN:离线强化学习中基于生成对抗网络的扩散策略
离线强化学习方法 DiffPoGAN 通过离线数据集学习最优策略,利用生成对抗网络生成多样的动作分布,使用最大似然估计方法生成近似行为策略分布的数据,并引入基于鉴别器输出的额外正则化项来有效约束策略探索,实验证明在离线强化学习领域超过了其他 - Q - 函数之差的正交估计
离线强化学习是许多具有可用观测数据但由于安全、成本和其他方面的考虑而无法在线部署新策略的设置中的重要问题。本文提出了 R-learner 的动态推广,用于估计和优化 Q 函数之间的差异,方法可以利用黑盒辅助估计器和行为策略来估计更结构化的 - 自适应离线到在线强化学习的剩余学习和上下文编码
离线强化学习通过离线数据集学习顺序行为,但实际应用中离线和在线阶段的转换动力学常常变化,所以提出了一种利用残差学习推断离线解决方案输出的动力学变化的方法,在在线微调阶段通过训练上下文编码器来学习能在当前在线学习环境中保持一致且能预测动态转换 - 离线强化学习中有限数据处理的领域知识整合
通过领域知识约束和自适应改进初步的领域知识,该论文提出了一种能够显著提高有限数据下性能的新颖离线强化学习(RL)算法,并通过对标准离散环境数据集的实证评估,显示相比于现有离线 RL 算法,性能至少提升了 27%。
- 使用未标记数据增强离线强化学习
该研究提出了一种解决离线强化学习中的 OOD 问题的新方法,通过引入离线强化学习师生框架和策略相似度度量,使得学生策略不仅可以从离线数据集中获取见解,还可以从教师策略传递的知识中获得额外的信息,从而有效解决 OOD 问题。
- CDSA:一种面向离线强化学习的保守去噪评分算法
分布偏移是离线强化学习中的一个主要障碍,为了避免高估罕见或未见动作,需要将学得的策略与行为策略的差异最小化。与以往保守的离线强化学习算法相比,我们提出使用从预训练的离线强化学习算法生成的数据集密度的梯度场来调整原始动作,解耦了保守性约束和策 - 决策猛蛇:一种具有自我演进正则化的离线强化学习多粒度状态空间模型
决策曼巴(DM)是一种新颖的多粒度状态空间模型(SSM),用于处理条件序列建模和 transformer 架构在离线强化学习(RL)任务中的应用。DM 通过使用曼巴架构明确地建模历史隐藏状态来提取时间信息,并通过细粒度 SSM 模块捕捉状态 - 策略性保守型 Q 学习
提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架,用于解决离线强化学习中的逼近误差和分布外动作的问题,在 D4RL 基准任务上表现优于现有方法。
- UDQL: 在离线强化学习中构建均方误差损失与最优值函数之间的桥梁
本文通过对均方误差进行理论分析,提供了过估计误差的理论上界,并提出了一种新的贝尔曼低估算子来对抗过估计现象,证明了其压缩特征。最后,基于低估算子和扩散策略模型提出了离线强化学习算法,实验证明我们的方法在 D4RL 任务上优于现有算法,验证了 - 蝰蛇作为决策者:探索离线强化学习中的多尺度序列建模
该研究论文借助于 Mamba Decision Maker 对 RL 领域的序列建模能力进行了深入探讨,并为未来鲁棒高效决策系统的进一步发展铺平了道路。
- 扩散演员 - 评论家:将受约束策略迭代形式化为离线强化学习的扩散噪声回归
这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略 - 上下文决策变换器:通过分层思维链强化学习
提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。
- ICML线下到线上强化学习的贝叶斯设计原则
离线强化学习(RL)在探索可能成本高昂或不安全的真实世界应用中至关重要。然而,离线学习的策略通常是次优的,需要进一步进行在线微调。本文解决了离线到在线微调的基本困境:如果智能体保持悲观态度,可能无法学到更好的策略,而如果直接变得乐观,性能可 - 基于随机演示的学习:使用重要性采样扩散模型的离线强化学习
我们提出了一种新的离线强化学习方法,利用引导扩散世界模型来直接评估离线目标策略,并进行一种重要性抽样的世界模型更新来使其与更新后的策略适应。在 D4RL 环境中的评估结果显示,在只有随机或中等专家示范的情况下,我们的方法相较于现有基线表现显 - 离线强化学习中创建信任区域的扩散策略
离线强化学习中的扩散信任 Q 学习方法(DTQL)通过引入扩散模型作为一个强大和有表达力的策略类,消除了训练和推理过程中迭代去噪采样的需要,大大提高了计算效率,并在多个基准任务中展现了优越的性能和算法特性。
- ICML自适应优势引导的策略规范化用于离线强化学习
通过自适应优势导向的策略规范化方法(A2PR),我们能够在离线强化学习中解决样本分布外问题,通过生成匹配数据点分布的样本,有效地选择高优势动作,并在保持一定保守性的同时改进行为策略,从而达到改进策略的理论保障,以及有效减轻价值函数高估的性能