最小化人力成本的演示学习框架
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明,该系统能够有效地学习行为。
Oct, 2023
本文介绍使用干预性策略学习的方法来解决机器人操作任务中必须经过精确定序的地方的问题,提出一种 6 自由度机器人操作任务的数据采集系统,并开发了一个简单而有效的算法来收集新数据以遍历通过这些难点,使用干预策略学习的代理在机器人的线路穿线任务和制造咖啡任务中的表现优于其他多种基线算法。
Dec, 2020
本文介绍一种基于强化学习的半自主智能体,当其对任务成功的信心较低时,通过估计当前状态回报的方差来请求外部帮助,该方法在离线训练期间没有访问专家,并在多个离散导航问题中有效利用有限的专家调用预算。
Mar, 2023
该研究提出了一个利用无人干预的关节行动示范学习人类用户模型的框架,以便机器人能够计算出一项与人类的合作任务相适应的鲁棒策略。该框架利用无监督学习算法将示范动作序列聚集到不同的人类类型中,并使用逆强化学习算法学习代表每种类型的奖励函数。最后,该方法得到了验证,并在实验室中演示了同一个人类与小型工业机器人配合完成任务的可能性。
May, 2014
通过使用一个新型的人机协作系统,允许人类操作员与机器人共同控制机器人末端执行器,从而实现了同时进行人类示范收集和机器人操作教学,以提高数据收集效率和降低人类适应性需求。
Jun, 2024
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
提出了一种模型自由、剩余策略学习算法来实现共享自主,将人与机器人的互补优势结合起来,以实现共同的目标,在 Lunar Lander 和 6-DOF quadrotor reaching task 两个连续控制环境中测试,表明此方法可以显著提高任务绩效。
Apr, 2020
本文提出一种具有自适应性的算法,使得现有的强化学习代理可以在机器和人类代理之间进行控制转换,在类似环境中可以找到多个转换策略序列,并演示了该算法在半自动驾驶场景中具有优越性。
Feb, 2020
提出了一种名为 TD3fG 算法的新算法,旨在通过学习经验和专家的有机转换,帮助代理从低质量和不充分的演示中提取先前的知识,从而减少对演示的不良影响。该算法对于具有有限演示的机械臂和 MuJoCo 任务表现良好。
Mar, 2023