- ICLR基于模型的规划代理行为保证的奖励上界
近年来,对机器学习代理在野外,尤其是机器人领域的可信度产生了日益浓厚的兴趣,以提供行业的安全保证。我们的研究工作主要关注保证基于模型的规划代理在特定未来时间步达到目标状态的问题,通过展示目标状态的奖励存在一个下界,当该奖励低于该下界时,无法 - 基于模型的规划提炼出有理论保证的策略改进
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
- 从只包含状态序列中学习非 Markov 决策制定
本文研究了一种在非 Markov 决策过程下进行深度生成建模的模型,在无法观察到动作的情况下进行模仿学习和决策制定。
- 基于模型的约束 MDP 在序列激励营销中的预算分配
本文提出采用 CMDP 框架和模型规划相结合的学习算法,解决了在线商业活动中如何高效地分配奖励从以往的历史订单数据中学习策略的问题。实验结果表明了本方法的有效性。
- 利用跳跃模型进行机器人领域的规划和快速学习
本文研究了从未标记的经验中学习多步动态预测模型(跳跃模型)及其在后续任务中快速推理(高级)计划的实用性。通过离线学习技能嵌入空间,我们提出了一种学习跳跃模型的方法,不需要标签或奖励注释。通过在 RGB 堆栈环境中进行一系列实验,展示了通过学 - 学习,快与慢:面向动态环境的目标导向基于记忆的方法
本研究针对基于模型的下一状态预测和状态价值预测收敛缓慢的问题,使用并行内存检索系统进行基于模型的规划,使用神经网络指导代理的行为,通过基于目标的探索在线训练,取得了 92% 的解决率,显示出 RL 模型应用于目标和子目标规划的未来。
- ICML面向分布感知的自主驾驶安全目标预测和符合模型规划
本文提出了一种基于模块化架构的学车任务分解方法,在障碍感知、目标预测和规划方面均取得了优秀的方法,并在 CARLA 模拟器上实现了最新的优秀结果。
- RoboCraft: 用图形网络学习看、模拟和塑造弹性塑性物体
RoboCraft 通过使用基于粒子的表示法,结合模型规划框架、图神经网络和模型预测控制算法,可以在只有 RGBD 视觉观测数据的情况下,学习弹塑性物体的动力学模型,并用于控制机器人进行物体变形任务,实验结果表明 RoboCraft 的优异 - IJCAI三思而后言:通过计划单次对话来改善多次对话策略
本文提出了一种基于多任务学习框架的 Planning Enhanced Dialog Policy (PEDP) 方法,使用模型规划来模拟单动作对话,从而增强多动作预测,实现了相对于现有状态下最先进方法的 3% 提高,达到了 90.6% 的 - IJCAI基于模型的脱机 Planning 与轨迹剪枝
本研究提出了一个新型的轻量级基于模型的离线规划框架 MOPP,通过通过学习数据中的行为策略鼓励更激进的轨迹回放,并修剪出问题轨迹,以避免潜在的超出分布样本,相对于现有模型的离线规划和 RL 方法表现更具有竞争性。
- ICLR离线策略评估和优化的自回归动态模型
提出了一种基于自回归动力学模型的控制模型,分析了其在离线数据集 RL Unplugged 中的表现,证明其在策略优化中具有潜在应用。
- 基于模型规划的车辆轨迹预测学习
本文介绍了一种基于模型规划的预测框架 PRIME,能够为自动驾驶提供准确和可行的多模态未来轨迹预测,并在大规模实验中取得了比现有技术更好的预测精度,可行性和鲁棒性。
- 通过学习模型规划,掌握雅达利、围棋、国际象棋和将棋
本文提出了 MuZero 算法,它通过结合基于树的搜索和学习模型实现了对一系列具有挑战性且视觉复杂的领域的超人类表现,在 57 款不同的 Atari 游戏上以及对 Go、国际象棋和象棋等游戏的测试中,都表现出了与 AlphaZero 算法相 - ICML神经网络在深度强化学习中的表现能力
我们通过神经网络对策略,Q 函数和动态的表达能力,比较模型无关的强化学习与模型基于的方法。我们理论和实证地展示,即使对于一维连续状态空间,存在许多其最佳 Q 函数和策略比动态复杂得多的 MDP。我们假设许多现实世界中的 MDP 也具有类似的 - 具有生成模型的基于模型的强化学习是极小 - 极大最优的
本文研究了使用生成模型获取具有 ε- 最优策略的折扣马尔可夫决策过程(MDP)的样本复杂度和计算复杂度,通过最自然的插件方法来构建 MDP 中的转移模型的最大似然估计值,并确定它是否非渐近地在给定固定样本大小时找到质量最优策略的极小 / 极 - 深层残差强化学习
本文重新探讨了残差算法在无模型和有模型强化学习中的应用,提出了双向目标网络技术来稳定残差算法,在 DeepMind 控制套件基准测试中,得到了明显优于基准 DDPG 的残差版本,同时,在模型为基础的规划中,本研究发现残差算法是解决分布不匹配 - ICML自共轨迹自编码器:轨迹嵌入的分层强化学习
本文提出了一种用于连续性轨迹的生成式模型 ——SeCTAR,该模型结合了变分自编码器和深层强化学习的思想,并提出了一种用于学习 latent representations 的方法。通过在学习到的 latent space 中进行 mode - 从零开始学习基于模型的规划
介绍了一种基于想象的规划器,可以学习构建、评估和执行计划,并可通过学习策略等手段进行多方案模拟,联合优化外部收益和计算成本等目标。
- NIPSQMDP-Net: 基于深度学习的部分可观察性规划
QMDP-net 是一种用于部分可观测性下规划的神经网络结构,结合了无模型学习和基于模型的规划的优势,并在预备实验中在多项机器人任务中表现出强大性能。
- Arcade Learning Environment:通用智能体评估平台
该论文介绍了 Arcade Learning Environment(ALE),这是一个既是挑战问题又是平台和方法论,用于评估通用、域无关的人工智能技术的发展。ALE 提供了与数百种 Atari 2600 游戏环境的接口,每个环境都不同、有