offline rl | BriefGPT - AI 论文速递

关键词offline rl

搜索结果 - 74

具有偏倚离线数据和不完善模拟器的强化学习基准
许多强化学习应用中，很难让智能体在真实世界中行动，这给自动驾驶、医疗应用甚至某些推荐系统带来了困扰。本研究概述了强化学习中将离线数据与不完善模拟器相结合的四个主要挑战，并构建了 “机械离线强化学习基准”（B4MRL）来推动该领域的研究。结果
PDF4 days ago
离线强化学习的偏好调查
利用学习到的环境模型，在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL，通过模拟轨迹获取偏好反馈，对于超出分布的数据采用悲观方法，对于获取最优策略相关的信息采用乐观方法，提供了关于样本复杂度的理论保证，最后通过在不同
PDF8 days ago
等变离线强化学习
通过使用有限数量的演示，本研究探讨了在离线强化学习中使用 $SO (2)$- 等变神经网络的可能性，并通过实验证明了等变性如何提高低数据情况下的离线学习算法。
PDF14 days ago
线性函数逼近下离线强化学习中固有贝尔曼误差的作用
在这篇论文中，我们研究了具有线性函数逼近的离线强化学习问题。我们的主要结构性假设是 MDP 具有低固有贝尔曼误差，这意味着线性值函数对于贪婪策略具有线性的贝尔曼备份。我们提供了一种计算效率高的算法，可以在数据集的单策略覆盖条件下成功，输出的
PDF17 days ago
离线强化学习中，价值学习真的是主要瓶颈吗？
离线强化学习的性能问题一直存在着，本研究通过比较值函数学习、策略提取和策略泛化这三个组件对离线强化学习的性能进行了系统的实证研究，发现策略提取算法的选择对离线强化学习的性能和可扩展性有着显著影响，同时，离线强化学习的性能问题主要还是由训练数
PDF21 days ago
PlanDQ: 分层计划编排通过 D-Conductor 和 Q-Performer
提出一种用于离线强化学习的分层规划器 PlanDQ，其中包括高层的扩散式规划器 D-Conductor，用于指导低层策略实现子目标，并采用 Q-learning 的方法 Q-Performer 来完成这些子目标，实验结果表明 PlanDQ
PDF24 days ago
ICML离线强化学习中从单个任务中发现多个解决方案
通过研究在线强化学习，在少样本适应新环境的情况下，从一个任务中学习多种行为的优势已经被证明。然而，在离线强化学习中，学习多个解决方案的适当方法并未在先前研究中得到充分探讨。本研究因此解决了在离线强化学习中从单个任务中找到多个解决方案的问题。
PDF24 days ago
AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法，并通过优化问题的形式对其进行了描述。基于这个优化问题，我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard，它们继承了 IQL 中演员和评论家解耦的优势，并阐明了为什么
PDFa month ago
离线强化学习中的结构化非稳定性数据集
当前强化学习通常受到需要大量数据来学习成功策略的限制。离线强化学习旨在通过使用由不同行为策略收集到的转换来解决这个问题。我们提出了一种基于对比预测编码的方法，该方法识别了离线数据集中的非稳定性，在训练策略时对其进行考虑，并在评估过程中进行预
PDFa month ago
Mamba 在离线强化学习中是否与轨迹优化兼容？
本研究目的是通过全面的实验，从数据结构和网络架构的角度探索决策 Mamba 在离线强化学习中的潜力，证明它与轨迹优化的兼容性，并超越了以往最先进的方法。
PDFa month ago
离线到在线强化学习中的任务泛化集成后继代表
使用离线数据集构建继任者表示法和集成 Q 函数的方法，以实现从离线到在线学习的任务泛化和快速适应新任务。
PDF2 months ago
离线强化学习中的领域外适应性：通过因果规范化流进行反事实推理
通过因果推论而非策略正则化方法，本文提出了 MOOD-CRL（基于模型的线下 OOD 自适应因果强化学习）算法，旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据，我们开发了一种新的学习方案，以学习定量结
PDF2 months ago
TrajDeleter：离线强化学习代理中的轨迹遗忘功能
本研究提出了 Trajdeleter 和 Trajauditor，分别为离线强化学习代理实现轨迹遗忘和评估提供了实用的方法。通过 extensive experiments，结果表明 Trajdeleter 仅需约 1.5% 所需时间进行重
PDF3 months ago
强化学习中奖励展望的价值
通过竞争分析的视角，我们量化分析了先见之明的未来回报信息的价值，并且得出了标准 RL 代理和具有部分未来回报展望的代理之间的比率。我们刻画了最坏情况下的回报分布，并得出了最坏情况下回报期望的精确比率。结果令人惊讶的是，所得比率与离线 RL
PDF4 months ago
网络强化学习的因果性质
强化学习和因果建模在互补中相当自然地互相配合。本研究论文考察了哪些强化学习设置可以受益于因果建模，以及如何进行。
PDF4 months ago
分布受益的更多好处：强化学习的二阶边界
在这篇论文中，我们证明了 Distributional Reinforcement Learning (DistRL) 可以在具有函数逼近的一般环境中获得在线和离线强化学习的二阶上界。这些二阶上界是与回报方差相关的实例相关性上界，我们证明这
PDF5 months ago
AAAI悲观离线强化学习的神经网络近似
利用深度强化学习和贝尔曼残差的耦合，我们在一些温和假设下，建立了悲观离线强化学习的非渐进估计误差，该结果展示了深度对抗式离线强化学习框架的显式效率，并对算法模型设计提供了指导。
PDF6 months ago
离线强化学习推进 RAN 切片技术
该研究介绍了离线强化学习（RL）在解决无线网络中的无线电资源管理（RRM）问题方面的应用，展示了它学习接近最优策略的能力，适应不同的服务级别要求，并在各种 RAN 分割场景中发挥潜力。
PDF7 months ago
基于轻量级 Transformer 的交通信号控制：离线到在线强化学习方法
DTLight 是一种基于 Decision Transformer 和知识蒸馏的简单而强大的轻量级交通信号控制方法，可从易于获取的离线数据集中学习策略，并通过适配器模块实现在线调整，其在合成和真实场景的广泛实验中表现出色。
PDF7 months ago
基于离线强化学习的完全数据驱动实现逼真交通信号控制
通过结合交通流理论和机器学习，我们提出了一种全面的数据驱动和免费模拟器的实现逼真交通信号控制框架 (D2TSC)。我们利用历史交通数据构建了一个奖励推断模型，通过粗粒度的交通数据来推断奖励信号，并进一步使用样本高效的离线 RL 方法，从真实
PDF7 months ago