- ICML细粒度的因果动力学学习与量化技术在增强学习中的鲁棒性改进
我们提出了一种新的动力学模型,通过推断细粒度的因果结构并用于预测,以改善强化学习中的鲁棒性。该模型通过将状态 - 动作空间离散化为子群,共同学习动力学模型和离散潜变量的关键点子,从而识别显示稀疏依赖性的有意义的上下文,并在训练中为每个子群学 - SINDy-RL: 可解释和高效的基于模型的强化学习
介绍了一种将稀疏字典学习和深度强化学习结合起来的 SINDy-RL 框架,用于创建高效、可解释和可信赖的动力学模型、奖励函数和控制策略,并通过在基准控制环境和复杂流体问题上的实验表明其有效性。
- 离线模型基强化学习中的达到边界问题
模型辅助的离线强化学习方法在现有理论框架下存在无法解决的边界问题,因此提出了针对此问题的效果显著的新方法 Reach-Aware Value Learning (RAVL)。
- 生成内在优化:具备模型学习的内在控制
采用变分方法联合学习估计互信息和动力学模型的必要数量,提供了一种结合不同形式感兴趣结果的广泛框架,将内部激励与奖励最大化相结合,以增强样本效率并将环境的不确定性纳入决策中。
- 奖励一致性动力模型在离线强化学习中具有强大的泛化能力
学习精确的动力学模型对于脱机强化学习非常重要,我们提出了奖励一致性动力学模型的概念,通过生成具有最高动力学奖励值的批次转换来改善脱机模型建立强化学习方法的性能。
- SlotGNN:无监督发现多物体表示和视觉动态
利用无监督技术从视觉数据中学习多对象动态是一项具有挑战性的任务。本文提出一种新的框架,通过机器人交互学习可以学到稳健的对象表示的两个新架构:SlotTransport 用于从 RGB 图像中发现对象表示,SlotGNN 用于从 RGB 图像 - 离线强化学习中的等变数据增强技术
我们提出了一种新的方法来解决离线强化学习中的泛化问题,通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变,使用熵正则化增加等变集合并用结果转变的样本增强数据集,最后基于增强数据集使用现成的离线强化学习算法离线学习新策略,实 - 决策和控制的深度生成模型
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
- 深入挖掘:利用基本对称性,提高离线强化学习的样本效率
本文提出 Time-reversal symmetry enforced Dynamics Model 方法以增强离线 RL 在小数据集上表现,该方法可用于构建新的 TSRL 算法,对数据效率和泛化性能进行提升。
- 通过动态感知和无重置学习在物理机器人上实现质量多样性优化
通过 Reset-Free QD 算法和动力学模型,在物理机器人上直接学习控制器,以提高样本效率和生成最佳存档,从而使物理四足机器人在两小时内学习到行为技能库。
- ICLR模型强化学习中价值扩展方法的递减收益
本文对用于连续控制问题的一类基于模型的价值扩展方法中的样本效率的问题进行了研究,并通过实验表明,在提升普通动力学模型的准确性时所增加的样本效率 marginally,远远达不到与无模型方法相当的表现。
- CLARE: 离线反向强化学习中保守的基于模型的奖励学习
该论文提出了一种名为 CLARE 的算法,该算法通过将 “保守性” 纳入学习的奖励函数并利用估计的动力学模型来解决离线逆强化学习中的奖励外推错误问题,其得到的学习奖励函数是高度可指导后续的学习,通过大量实验证明了 CLARE 相较于现有最先 - 将循环强化学习纳入模型预测控制中,以实现自主驾驶中的自适应控制
通过解决 MPC 控制器在现实场景下系统识别学习失败的问题,将其转化为部分观察马尔科夫决策过程,通过循环强化学习不断地适应动态模型参数,该论文提出了一种自适应控制算法 (MPC-RRL),最终在 CARLA 模拟器中得出了具有鲁棒性和可靠性 - AAAI基于模型的离线强化学习中的本地错误建模
我们提出了一个基于模型的离线强化学习策略性能下限,明确捕捉动力学模型误差和分布不匹配,并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择 - MoCoDA: 基于模型的反事实数据增强
本文提出一种利用局部分解结构的动力学模型、试验数据增强等方法的强化学习算法,该算法在离线学习方面比标准算法可显著提升其在超出分布范围的机器人操作任务中的性能表现。
- 鉴别器指导的基于模型的离线模仿学习
该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架,该框架采用协作对抗学习策略,能够显著提高在小数据集下的性能和鲁棒性。
- ICML将基于模型策略的稳态分布规范化以稳定离线强化学习
该研究针对离线强化学习中策略训练不稳定的问题,通过对当前策略的无折扣平稳分布进行正则化,并训练动力学模型以实现该正则化和更好地估计当前策略的平稳分布,从而减少分布不匹配引起的误差,并在广泛的连续控制离线 RL 数据集上展现出竞争性的性能。
- ICML利用扩散计划实现灵活的行为合成
本文通过扩展动力学模型,利用扩散概率模型去掉了传统轨迹优化方法的瓶颈,将采样和计划步骤近乎完全融合,通过分类器和图像插值获得了在线规划策略,并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。
- 工业过程控制可靠的离线基于模型的优化
利用条件生成对抗网络集成的动态模型和基于信息不确定性的奖励评估函数,实现离线建模优化在工业过程控制中的精确应用。
- 稳定的多智能体交互影响力研究
该研究探讨如何通过学习其他机器人的策略,以及动态模型的帮助,定义一个无监督的稳定奖励来影响其他机器人的策略以实现稳定,并展示了其在自动驾驶、紧急通信和机器人操作等方面的有效性。