基于无监督学习的目标领域非赏值驱动探索
本论文提出了一种基于内在动机的目标探索算法,结合自主学习过程和增量式目标策略搜寻探索,可以自动生成任务序列并发掘多种技能,无需特定的目标指令,适用于机器人等人工智能设备的自主发展学习。
Aug, 2017
本文介绍了如何使用内在动机和深度学习算法来有效生成目标空间,提出了使用解耦目标空间可以更好地进行探索,同时利用模块化学习进度驱动求知型探索,同时发现了环境的独立可控特征。
Jul, 2018
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习,该方法包含多个状态表示学习方法,能够提高采样效率、提高性能、抗超参数变化,并编码所有相关特征。
Jan, 2019
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人'好'表示的见解。
Nov, 2020
本文介绍了发展性强化学习并提出了一个基于目标条件强化学习的计算框架,以解决本能动机技能获取问题,着重探讨了在自主系统中学习目标表示和优先级的现有方法,并讨论了在 intrinsically motivated skills acquisition 中的一些挑战。
Dec, 2020
本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。
Apr, 2021
无监督的目标条件增强学习(GCRL)是一种有前途的方法,可以在没有外部监督的情况下开发多样化的机器人技能。本文提出了一种新颖的无监督GCRL方法,利用时间距离感知表示(TLDR),通过选择远离的目标进行探索并计算基于时间距离的内在探索奖励和目标达成奖励,以克服其他方法在复杂环境中涵盖广泛状态的限制。实验结果表明,我们的方法在六个模拟机器人运动环境中显著优于之前的无监督GCRL方法,可以实现多样的状态。
Jul, 2024