研究了机器人如何通过无监督学习和条件目标设定模型自主地学习和实践行为,从而掌握丰富的技能和处理不同的任务和环境。
Oct, 2019
本文提出了一种基于空间推理和 RL 框架的学习方法,通过想象视觉目标并选择适当的行动来完成任务,使用单一外部奖励信号和内部动机来学习,该方法在两个仿真 3D 环境中,进行了验证,并在处理物体排列任务时,优于两个扁平化架构和一个分层架构。
Jan, 2020
本研究提出了一种将想象中的子目标融入策略学习中的方法,以促进解决需要更复杂的任务,并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。
Jul, 2021
本研究提出一种基于 few-shot 和 meta 学习的方法,以实现在不确定环境下,通过从少量任务成功状态中学习目标来实现机器人的自主学习和行动。
Sep, 2018
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
通过提出自动课程设计和目标建议模块,来提高强化学习中的多任务目标采样效率,并在机器人和导航任务中展示了比现有方法更好的性能。
Jun, 2020
本研究提出使用深度表示学习算法学习目标空间的方法,通过此方法可以发现探索算法,与工程化表示法相比性能表现相匹配。
Mar, 2018
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
提出了一种框架,可以使代理能够自主识别和忽略干扰区域,从而在可学习区域中寻找新颖性,改善整体表现并避免灾难性遗忘。实验表明,代理利用该框架成功地识别了环境的有趣区域,并在性能上取得了极大的改善。