通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
Jul, 2023
本文提出了一种双学习者的框架,名为双重策略蒸馏(DPD),其中两个学习者在同一环境中运行,以探索环境的不同方面并相互提取知识以增强他们的学习,并对几个连续控制任务进行实验,表明该框架可以在没有使用昂贵的教师模型的情况下,在具有学习基础的代理和函数逼近的情况下获得优越的性能。
Jun, 2020
通过学习抽象 MDP(Markov 决策过程)来提高智能体在多任务环境中的决策和学习效率。
Jun, 2024
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
May, 2017
本文提出了一种结合规划方法和强化学习的方法,利用强化学习学习目标驱动策略,从而让规划方法更好地实现任务;同时利用一个潜在变量模型来简洁地表示规划中的有效状态,从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。
Nov, 2019
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
通过将规划问题分为两个阶段(预测和建模),使用递归神经网络,利用监督学习技术通过对输入节点进行优化来解决长期规划问题,从而在自动驾驶应用中学习鲁棒政策,并纳入敌对因素以优化环境。
Feb, 2016
对于多智能体系统中的动态和不确定环境,我们提出了一种激励兼容机制,以实现感应随机博弈的马尔可夫完美均衡下的最佳联合计划,特别地,我们运用吉廷斯分配指数提供高效的分布式算法,并将最优策略的计算分配给代理。
Jun, 2012
通过在仿真环境中使用基于高斯过程的先验知识,结合基于贝叶斯优化的策略搜索方法,提高在连续和离散控制环境中智能体行为的适应性,实验表明相比其他竞争基准,该方法的效果更好。
Feb, 2022
这篇论文通过深度强化学习中的自我对战迭代程序展示了如何创建越来越多样化的交通场景并学习多智能体协作策略提高合并操作成功率。
Jan, 2020