model-based rl | BriefGPT - AI 论文速递

关键词model-based rl

搜索结果 - 31

基于模型的强化学习：乐观后验采样的结构条件与样本复杂度
本文提出了一种通用框架来设计基于模型的 RL 的后验抽样方法，并表明所提出的算法可以通过在条件概率估计中将遗憾降至 Hellinger 距离来分析，进一步表明，在通过数据似然度量模型误差时，乐观后验抽样可以控制此 Hellinger 距离，
PDF2 years ago
ICLR基于视觉模型的强化学习中通过赋能实现信息优先级排序
提出一种改进目标函数的模型化强化学习算法，通过互信息最大化来学习视觉模型化强化学习的表示和动力学，并将与行动相关的信息优先考虑，同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估，表明该方法比基于模型的先进 RL 方法具有更高的性
PDF2 years ago
Dyna-T: 使用 Dyna-Q 和置信上界应用于树
本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T，在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。
PDF2 years ago
行为预期和动态模型：改进离线强化学习的性能和领域转移
本文提出了一种 Offline Model-based RL with Adaptive Behavioral Priors（MABE）算法，利用数据集的动力学模型和行为先验知识相结合，大大提高了离线 RL 策略的性能和泛化能力，在 D4R
PDF3 years ago
ICML用于规划的矢量量化模型
使用离散自编码器来处理动作在随机环境中引起的多种可能性，再结合随机版 Monte Carlo 树搜索算法规划代理的动作和代表环境反应的离散潜变量，明显优于 MuZero 在处理随机国际象棋和 DeepMind Lab 等部分观测模型的 RL
PDF3 years ago
MMMOReL：基于模型的离线强化学习
本研究提出了基于模型的离线强化学习算法 MOReL，具有模块化设计，可以用于模型生成、不确定性估计、规划等领域，实验结果表明，MOReL 能够达到或超过当前广泛研究的离线强化学习基准的最新结果。
PDF4 years ago
ICML基于 Bandit 反馈的乐观策略优化
本研究考虑模型基于强化学习中的政策优化方法，提出了一种乐观的信任域策略优化算法，在离散情况下，对于未知转换和奖励反馈的情况，获得了首个亚线性 Regret 的下界。
PDF4 years ago
ICML基于模型的组合状态和动作空间学习与规划的全球方案
本文提出了一种形式化方法，通过学习动态模型和观察状态转移示例来导出世界程序，并将其作为复杂规划任务的模拟器，以进行强化学习。作者强调了最近的应用，并提出了基于世界程序规划的挑战，以评估学习算法的性能。
PDF5 years ago
深度强化学习中的迁移语言基础
本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。
PDF7 years ago
机器人黑盒数据高效策略搜索
本文提出一种称为 Black-DROPS 的新型基于模型的强化学习算法，使用黑盒算法代替基于梯度的优化算法，可以更灵活地处理奖励函数和策略，并且在数据效率方面与现有最先进算法相当。在模拟环境和机器人系统上进行验证。
PDF7 years ago
基于递归卷积神经网络的强化学习
使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替
PDF7 years ago