本文提出了一种无需奖励函数却能学习有用技能的方法 DIAYN(“多样性就是你所需的一切”),其通过最大化信息理论目标来实现技能的学习,在多项模拟机器人任务中取得了良好的表现,并且能够服务于其它强化学习相关的挑战。
Feb, 2018
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
本文提出了一种基于无人监督学习的算法,用于训练代理达成感知确定目标,通过学习目标条件化策略和目标实现奖励函数,代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。
Nov, 2018
本文提出的无监督技能发现算法可用于进行高效无监督增强学习,通过模型预测控制将学习到的技能组合用于目标导航。
Apr, 2020
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
通过利用人类反馈进行强化学习,无监督对象发现的准确性和训练速度得到了显著提高。
Oct, 2023
本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能,但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。
Oct, 2021
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
本篇论文研究了如何通过自主互动学习动态距离,并使用它们来提供良好的奖励函数,以便无需人为设计奖励函数或目标示例,使用半监督学习方法在实际机器人和仿真环境中有效地执行复杂任务。
Jul, 2019
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016