本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
本文提出的无监督技能发现算法可用于进行高效无监督增强学习,通过模型预测控制将学习到的技能组合用于目标导航。
Apr, 2020
该研究提出了一种使用神经网络编码奖励函数的方法,通过迭代训练,以鼓励更复杂的行为,实现在高维度机器人和像素级环境下的无监督学习,从而学习包括前空翻和单腿奔跑等丰富的技能。
Feb, 2022
该论文研究了使用感知奖励函数的方法,以提供视觉任务的描述,使代理能够从基于原始像素而不是内部参数的奖励中进行学习。
Aug, 2016
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
本研究探究了奖励学习在机器人自适应行为学习中的应用,结合人类输入实现对特征的分步学习,并应用于机器人操作中。该方法在提高奖励学习效率和推广性方面优于传统的奖励学习方法。
Jan, 2022
我们提出一种基于不可微分计划器的逆强化学习,用于推断从专家提供的演示中学习奖励函数,并与采用特定假设的数学模型相比,我们的方法可以得到更好的奖励推断,同时保持在数据驱动方法和已知人类偏差之间的平衡。
Jun, 2019
通过整合演示(demonstrations)的方法,本研究探讨如何加速强化学习的收敛速度,以达到能够到达任何目标的策略,并且在与其他模仿学习算法训练的代理相比表现更好。
本文研究了如何在有限的标注数据下,通过半监督强化学习及反强化学习等方法,使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果,并评估了该方法在基于图像的控制任务上的表现。
Dec, 2016