特征扩张奖励学习:重新思考人类输入
该研究提出了一个利用无人干预的关节行动示范学习人类用户模型的框架,以便机器人能够计算出一项与人类的合作任务相适应的鲁棒策略。该框架利用无监督学习算法将示范动作序列聚集到不同的人类类型中,并使用逆强化学习算法学习代表每种类型的奖励函数。最后,该方法得到了验证,并在实验室中演示了同一个人类与小型工业机器人配合完成任务的可能性。
May, 2014
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
本研究探究了奖励学习在机器人自适应行为学习中的应用,结合人类输入实现对特征的分步学习,并应用于机器人操作中。该方法在提高奖励学习效率和推广性方面优于传统的奖励学习方法。
Jan, 2022
该研究提出了一种使用神经网络编码奖励函数的方法,通过迭代训练,以鼓励更复杂的行为,实现在高维度机器人和像素级环境下的无监督学习,从而学习包括前空翻和单腿奔跑等丰富的技能。
Feb, 2022
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数,并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型,从而能够在多个操纵任务上加速训练,而无需从机器人环境中获得先验数据,也无需使用特定于任务的人类演示数据。
Nov, 2022
通过使用预训练和微调范式,我们引入RoboFuME系统,利用网络上的数据和模型,允许机器人在几乎没有人工干预的情况下学习新任务,并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器,在线进行微调并提供奖励信号,从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中,我们的方法表现出色。
Oct, 2023
本研究解决了机器人学习中如何从有限的人类示范中推断有意义的奖励函数的问题,特别是在环境特征识别方面。提出的ALGAE方法通过语言模型 iteratively 识别重要特征,并利用逆强化学习技术为这些特征赋予权重。实验表明,ALGAE能够在解释性特征上学习通用的奖励函数,并且能够在缺少特征时自行提取,极大地提高了学习效率。
Sep, 2024
本研究解决了当前机器人学习中从人类示范推断奖励函数的特定问题,特别是如何有效识别环境相关特征。提出的ALGAE方法通过将语言模型与传统逆强化学习技术相结合,能够在少量示范中学习出可解释的、通用的奖励函数,显著提升了学习效率和效果。关键发现是,ALGAE可以自主识别缺失特征并加以定义,为快速获取用户行为的丰富表示提供了可能。
Sep, 2024