本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化,探讨了基于此原理进行的策略搜索的方法,并在标准基准测试中与多种强化学习方法进行了比较。
Dec, 2019
本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法,证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。
Mar, 2017
介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法,可以处理原始感官输入(如图像),并使用后期目标重新标记方案来进一步提高其方法的样本效率,在实际机器人系统上获得了比之前的技术更好的效果。
Jul, 2018
强化学习是解决环境并实现目标达成的框架,该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明,该算法能够增强学习效果并保持目标的达成性质。
May, 2024
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
Jun, 2019
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
论文提出了一种算法框架,称为层次性指导,旨在通过利用专家的反馈来学习序贯决策制定策略,以应对奖励稀疏和时间范围长等问题,该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning,从而大大减少专家工作量和探索成本,并对该框架的某些实例的标注成本进行了理论分析。
Mar, 2018
本文提出了一种基于示教引导的强化学习方法,该方法通过提取任务中共享的子任务结构,从而显著提高学习效率,并且在迷宫导航和复杂机器人操纵任务上进行了验证。
Jul, 2021
通过自监督回归学习策略网络,提出了一种基于监督损失函数训练深度强化学习智能体的算法 (SSRL),该算法无需策略梯度或价值估计,能够通过监督回归数据来稳定提高策略表现并在效率和性能方面与现有算法相媲美,展示了利用监督学习技术解决强化学习问题的潜力。
Jun, 2021