自适应上下文强化学习
提出基于贝叶斯优化的因式化上下文策略搜索方法来提高机器人学习数据效率,通过将通常考虑的文本刻画为目标类型上下文和环境类型上下文两个部分,从而实现经验在目标类型上下文中直接泛化。初步结果表明,该方法在模拟玩具问题上可以更快地泛化策略。
Dec, 2016
该论文提出了一种用于强化学习中学习动态全局模型的方法,通过将学习全局动态模型的任务分解为学习本地动态的上下文潜向量和条件预测下一个状态来实现此目的,并通过鼓励上下文潜向量在预测正向和反向动态方面有用来编码动态特定信息。该方法在各种模拟机器人控制任务中实现了优异的泛化能力,超过了现有的强化学习方案。
May, 2020
本文提出了一种基于目标分布的通用任务表征方法,通过该方法可以实现针对不同任务的灵活重用技能,并开发了一种离策略算法 (Distribution-Conditioned Reinforcement Learning, DisCo RL) 来高效地学习这些策略。在多种机器人操作任务上的实验表明,该方法显著优于先前的方法,尤其是需要对新目标分布进行泛化的任务。
Apr, 2021
该研究使用深度强化学习通过单个演示来学习控制复杂机器人任务的目标条件策略,并提出 DCIL-II 算法以解决连续目标之间的兼容性问题,并在仿真环境中展示了前所未有的样本效率。
Nov, 2022
通过利用各态过程的统计力学,提出了一种称为最大扩散增强学习的方法,在单次部署中可使代理能够连续学习,无论如何初始化。该方法可以去除代理经验之间的相关性,证明了其优于流行基准的最优性能,并为增强学习代理(如行走机器人和自动驾驶车辆)的透明和可靠决策铺平了道路。
Sep, 2023
我们研究了如何将上下文信息引入行为学习以提高泛化性能,并引入了一个神经网络架构——决策适配器,该架构生成适配器模块的权重,并根据上下文信息调整智能体的行为。实验证明,与以往方法相比,决策适配器在几个环境中表现出更好的泛化性能,并且相对于一些替代方法,决策适配器对于无关变量的干扰更具鲁棒性。
Oct, 2023
提出了一种新颖的自主强化学习算法,能够根据智能体的学习进展生成自适应课程,使智能体能够高效地解决稀疏奖励迷宫导航任务,同时减少了手动复位。
Nov, 2023
强化学习中的多样技能学习,使用混合专家方法和最大熵目标优化每个专家的上下文分布,以激励在相似情境中学习多样技能。利用基于能量的模型来表示每个专家的上下文分布,通过标准策略梯度目标有效地训练它们,进一步解决了环境未知上下文概率空间中的难以处理的不连续性和多模态问题,通过在挑战性的机器人模拟任务中展示,Di-SkilL可以学习出多样且高效的技能。
Mar, 2024