本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法,通过使用线性组合特征表示奖励,借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题,并利用轨迹概率与特征期望之间的关联对特征进行选择,实验表明该方法能够恢复捕获专家策略的奖励函数,适用于越来越复杂的非线性控制任务。
Mar, 2024
利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
我们提出一种基于不可微分计划器的逆强化学习,用于推断从专家提供的演示中学习奖励函数,并与采用特定假设的数学模型相比,我们的方法可以得到更好的奖励推断,同时保持在数据驱动方法和已知人类偏差之间的平衡。
Jun, 2019
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
Sep, 2019
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
May, 2024
本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法,有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性,并证明该方法可使机器人从图像中直接学习知识,且仅需 1-4 个小时与实际世界进行交互。
Apr, 2019
本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性,并提出了一种新的 IRL 方法 SMIRL,该方法将任务结构化为有限状态自动机,然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验,我们证明了该方法的有效性和高效性,并表明其在具有组合奖励函数的任务中仍然表现良好。
Sep, 2022