d4rl benchmark | BriefGPT - AI 论文速递

关键词d4rl benchmark

搜索结果 - 7

离线强化学习中的样本内策略迭代
本文提出了一种新的算法，采用样本内策略迭代技术，通过在最小化数据收集策略的偏差的同时优化控制策略，可以显著提高离线强化学习中行为规则方法的性能，从而实现对以前收集的数据的有效控制。最后，基于 D4RL 基准测试的实验结果表明，该算法在大多数
PDFa year ago
基于模型的离线强化学习中的不确定性驱动轨迹截断
TATU is proposed to address the issue of uncertainty in synthetic samples for model-based offline RL algorithms and has
PDFa year ago
ICLR行为近端策略优化
本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在
PDFa year ago
闭合形式策略改进算子下的离线强化学习
本研究提出了行为约束的策略优化方法，通过模拟历史状态转移，采用先进的算法，成功地实现了通过行为约束进行离线强化学习。研究中，我们提出了闭式策略改进算子。我们首次发现，行为约束自然促使使用一阶泰勒展开，从而线性逼近策略目标。此外，由于实际数据
PDF2 years ago
CORL：面向研究的深度离线强化学习库
CORL 是一个开源库，提供单文件实现的深度离线强化学习算法，强调简单的开发体验和现代化的分析跟踪工具，通过将方法实现隔离到不同的单个文件中，使得性能相关的细节更易识别，同时提供实验跟踪功能，可将指标、超参数、依赖等日志记录到云端，并通过对
PDF2 years ago
基于对抗训练的离线强化学习中的演员 - 评论家算法
本文提出 Adversarially Trained Actor Critic (ATAC) 算法解决数据不足下的离线强化学习问题，通过相对悲观的方式，在两个玩家之间进行 Stackelberg 博弈，找到 “差策略” 并优化策略，该算法在
PDF2 years ago
无需离线策略评估的离线强化学习
本文探讨了离线强化学习领域中的一个策略改进方法，使用 on-policy Q 估计的行为策略，通过一步有限制 / 正则化的策略改进，能在 D4RL 基准测试中表现优于迭代算法。我们认为，迭代算法的性能较差是由于进行 off-policy 评
PDF3 years ago