通过评估假设行为学习人类目标
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向,并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。
Nov, 2018
提出了一种基于生成式逆强化学习的用户行为偏好建模方法,该方法可以自动学习用户的行为奖励函数,并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释,实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。
May, 2021
本文提出了一种状态增强技术,利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持,并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。
Feb, 2023
在安全关键的强化学习环境中,通过引入额外的成本函数来确保智能体安全行为的方法优于修改奖励函数的繁琐任务。然而,设计或评估这样的成本函数可能会非常昂贵。为了应对这个问题,我们提出一种可以在复杂环境中扩展并得到超越状态级反馈的方法,从而减轻评估者的负担。我们引入了一种替代目标,通过将问题转化为带有噪声标记的状态级监督分类任务,从而解决了根据轨迹级反馈为各个状态分配信用的挑战。此外,由于无法对智能体生成的每个轨迹收集反馈,我们提出了一种基于新颖性的采样方法,只有当智能体遇到 “新颖” 的轨迹时才会选择性地引入评估者。我们通过在多个基准安全训练场和现实自动驾驶场景中进行实验证明了我们方法的效率。
Jun, 2024