- 基于超梯度的双层强化学习方法并避免较低级别的凸性
通过使用与规则化 RL 相关的固定点方程,我们以全一阶信息表征超梯度,从而回避了对低级凸性的假设,并提出了基于模型和无模型的双层强化学习算法,都被证明具有收敛速度 O (ε^(-1))。
- SELFI: 自主社会导航自我提升的强化学习
提出了一种名为 SELFI 的在线学习方法,该方法通过在离线模型训练的基础上运用在线无模型强化学习来快速优化预先训练的控制策略,以实现自主自我改进的机器人行为,并在实际环境中进行评估,展示出在避免碰撞和更社会合规行为方面的改进。
- IJCAI通过因果世界模型实现可解释的强化学习
本文针对强化学习中行为的长期影响,提出了一种基于因果世界模型的可解释强化学习框架。该模型能够捕捉行为的影响,通过因果链解释行为的长期效应,从而提高模型的可解释性,同时保持了准确性,使其适用于基于模型的学习。实验结果表明,因果模型可以作为解释 - 自监督表示学习的模型预测控制
使用重建函数的 TD-MPC 框架结合模型自由与模型基础学习方法,提高样本效率,改进控制任务的性能。
- 基于双层潜变量模型的高效样本多智能体强化学习
本研究使用 BiLL (Bi-Level Latent Variable Model-based Learning) 算法来解决多智能体强化学习 (MARL) 算法中高样本复杂性的问题,通过从高维度的输入数据学习一个双层潜变量模型,在全局状 - 使用本地遗忘的回放缓冲器进行自适应深度模型强化学习
本文探讨了在深度强化学习中,如何使用改进后的 replay buffer 来解决 catastrophic forgetting 和 stale data 的问题,从而实现在环境变化时能够更加高效地应对。
- CostNet: 目标导向强化学习的端到端框架
本文引入一种新的强化学习算法,通过学习马尔可夫决策过程中两个状态之间的距离来预测,距离度量作为内在奖励被用于推动智能体的学习。实验结果表明,相比于模型无关的强化学习,该算法在多个测试环境中具有更好的样本效率。
- 面向分散网络系统的可扩展基于模型的策略优化
本文旨在提高多智能体控制的数据效率,采用基于模型的学习方式,通过多个代理通过本地通信进行合作完成任务,实现分散的基于模型的策略优化框架,提出了扩展的价值函数,理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似,并在智能交通系统的多项基准 - 鉴别器指导的基于模型的离线模仿学习
该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架,该框架采用协作对抗学习策略,能够显著提高在小数据集下的性能和鲁棒性。
- 通过离线数据缓解模仿学习中的协变量漂移
本研究基于静态离线数据,提出了 MILO 框架及算法,用于高效解决无需在线交互式的模仿学习问题,其能够成功应对较弱行为准则下的状态行为的偏移问题,最终成功模仿高水平行为准则的动作。
- 人机交互中模型学习的效用
本文探讨了在机器人学中,构建世界显式模型和直接学习策略两种不同的方式,以及在人机交互中如何应用心理理论对机器人对人的建模对性能的影响,同时也考虑了理论假设不准确时的影响。
- 具有随机集合值扩展的样本有效强化学习
提出了一种名为 “随机集合价值扩展(STEVE)” 的新型基于模型的技术,通过动态插值来消除模型中的错误,与以往的基于模型的方法不同,该方法在复杂环境下不会降低性能,并在具有挑战性的连续控制基准测试中提高了一个数量级的样本效率。
- 非抓取性操作的强化学习:从仿真到物理系统的转移
本研究使用一种修改自然策略梯度算法的模型,通过模拟学习并训练,成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中,并证明使用多个模型训练可以使学习到的策略更加稳健,从而弥补了系统识别的困难。
- 在线动态适应和神经网络先验的一次性操作技能学习
本研究提出了一种基于模型的强化学习算法,将以前任务的先验知识与在线动态模型适应相结合,实现了高效学习,并且成功地应用于各种复杂机器人操纵任务。
- 具有形式学习时间保证的增量式基于模型的学习器
研究了使用实时动态规划加速基于模型的学习算法,提高了在求解有限状态和动作空间的马尔可夫决策问题时的计算效率,并在 PAC 意义下证明了这两种算法的高效性。