- ICLR强化学习中的在线策略模型误差
本文提出了一种结合模型和真实数据的方法来弥补模型误差和偏差所带来的不足,通过将真实数据作为时间相关的学习模型的修正项以维持数据生成能力并减少预测误差,从而改进了现有的基于模型的方法。在 MuJoCo 和 PyBullet 基准测试上的实验结 - 学习布料平滑的可视连通性动态
通过学习基于粒子的动力学模型来实现机器人对布料的操作,该模型具有较强的归纳偏差和物理学习能力,同时具有视觉不变性和良好的预测可视化性。在仿真和现实场景下取得了优异的表现。
- MM使用模型增强的强化学习优化出租车车队的随机路由
本论文提出了一种基于模型的派遣算法、基于高性能模型无关的强化学习算法和将自顶向下方法和模型无关强化学习的优点结合的新型混合算法,以路线优化策略的形式为车队提供路线规划,研究了面对实时、随机需求的情况下,在小到中型的道路网络中,对街道叫车服务 - MM针对具有近似最优遗憾度的无限时间平均收益 MDP 的无模型学习算法
提出了一种基于 EE-QL,结合浓度逼近和无模型弱交流 MDPs 的无模型学习算法,实现了与最佳已知基于模型算法相似的学习速度。
- 自适应近似策略迭代
本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许 - ICML基于模型的组合状态和动作空间学习与规划的全球方案
本文提出了一种形式化方法,通过学习动态模型和观察状态转移示例来导出世界程序,并将其作为复杂规划任务的模拟器,以进行强化学习。作者强调了最近的应用,并提出了基于世界程序规划的挑战,以评估学习算法的性能。
- 无模型线性二次调节器问题的梯度方法的收敛性和样本复杂度
研究了无模型强化学习中的线性二次调节器问题,建立了梯度流动力学和随机搜索法的指数稳定性,同时证明了函数评估次数和仿真时间都会随着精度要求的提高而对数增加。
- 使用学习的任务模式进行高效双手操作
本文研究了如何使用参数化技能有效地解决现实世界中的稀疏奖励任务,发现通过显式建模任务模式的状态独立性,可以极大地提高无模型强化学习算法的样本效率;同时,这些模式可以被转移用于解决相关任务。实验结果验证了我们的方法在机械手臂操作任务中的有效性 - 基于模型的前瞻性强化学习
本论文结合模型推理控制与模型无关的深度强化学习方法,提出一种更加高效的学习框架,并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。
- 度量空间中的高效无模型强化学习
本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法,利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法,无需使用黑盒规划预言机。
- 基于模型的 Atari 强化学习
这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。
- ICML强化学习的动作表示学习
研究了在没有给定先验结构的情况下,如何基于状态表示和行为表示实现模型无关的强化学习方法,并提供了相应的算法和收敛条件。
- 元强化学习推理因果关系
研究通过元强化学习是否可以发现因果推理,在这项研究中,我们训练了一个递归神经网络对包含因果结构的一系列问题进行无模型强化学习,证明了该代理可以在新的情况下进行因果推理,从观测数据中得出因果推断结果以及进行反事实预测,我们提出这种学习方法也可 - 无模型强化学习中的 Omega-Regular 目标
以非模式的方式提供了《ӏ–正则》监控下的最终快模满觉目标。
- 从单一遍历中学习可部署的千米级导航策略
通过单次覆盖遍历记录数据,提出了一种有效地在移动机器人上快速学习面向目标导航策略的方法,并且能够在实际机器人上成功地部署,同时能够处理测试时的环境外观差异。
- ICMLQ 学习是否可以被有效证明?
该研究论文探讨了模型无关的强化学习算法的样本效率问题,证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率,且无需模拟器,达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。
- BaRC:机器人强化学习的反向可达性课程
借助物理先验形式的近似系统动力学模型,我们设计了一个课程方案来优化无模型策略优化算法。我们的课程策略在任何模型无关 RL 算法上都是通用的,并且其课程战略在物理上直观、易于调节,并允许加速培训,同时不影响模型无关 RL 算法的性能、灵活性和 - 基于模型的价值估计,用于高效的无模型强化学习
本文提出了一种基于模型的价值拓展方法,通过限制想象的深度,控制模型的不确定性,提高了模型自由强化学习算法中学习价值估计的样本复杂度,针对连续控制任务使用了学习到的动态模型。
- ICLR时序差分模型:无模型深度强化学习用于模型控制
介绍了一种可以用于模型无关学习和模型控制的基于目标条件的价值函数,称为时间差分模型,它可以利用状态转移的丰富信息来非常高效地学习,同时达到超过直接基于模型的 RL 方法的渐近性能的实验结果表明,在一系列连续控制任务中,TDM 相比最先进的模 - NIPS基于互动回放的机器人导航单次强化学习
通过基于单次环境遍历构建交互世界模型、预训练视觉特征编码器和随机环境增强的方法,提出了一种在移动机器人上学习导航到固定目标并在已知环境中进行零样本迁移的方法。该方法成功应用于真实环境变化下的导航问题,避免了过拟合问题。