将人类领域知识融入大规模成本函数学习

Dec, 2016

将人类领域知识融入大规模成本函数学习

Incorporating Human Domain Knowledge into Large Scale Cost Function Learning

Markus Wulfmeier, Dushyant Rao, Ingmar Posner

TL;DR本研究采用预先训练的方式将人类先验知识引入深度逆强化学习，实现了更高的鲁棒性，更明显的障碍物边界以及能够捕捉纯学习模型无法捕捉的障碍物实例，这使得最终的模型可以更准确地处理包括楼梯、坡道和地下通道在内的稀有案例。

Abstract

Recent advances have shown the capability of Fully Convolutional Neural Networks (FCN) to model cost functions for motion planning in the context of learning driving preferences purely based on demonstration data from human drivers. While pure learning from demonstrations in the framework of Inverse Reinforcement Learning (IRL) is a promising approach, we ca

fully convolutional neural network inverse reinforcement learning pretraining human priors learning from demonstration

发现论文，激发创造

可扩展的成本函数学习用于城市环境路径规划

利用最大熵的非线性 IRL 框架，通过采集的人类行为驾驶数据，使用 Fully Convolutional Neural Networks (FCN) 表示驾驶行为的成本模型，直接构建出代替人类驾驶行为的代价图，以此实现机器人高仿真的驾驶行为，且表现出较强的可伸缩性和鲁棒性。

Jul, 2016

利用全卷积网络学习人意识路径规划

论文介绍了一种通过演示学习路径规划的方法，运用了全卷积神经网络来学习专家路径演示的地图，并使用 RRT* 算法来优化路径预测，本方法已在真实路径中进行试验并与逆强化学习算法进行了对比。

Mar, 2018

通过深度逆强化学习实现 MPC 的时空代价地图推断

本文提出了一种新的 IRL 算法，通过学习人类示范的目标条件下的时空奖励函数，生成适合用于 MPC 的费用地图，以实现自动驾驶、车道保持和车道变换任务，并在 CARLA 模拟器中进行了测试。结果表明，相比于行为克隆、现有 RL 策略和基于学习的行为预测模型的 MPC 等基准方法，我们提出的方法具有更高的成功率。

Jan, 2022

指导成本学习：基于策略优化的深层逆最优控制

本文旨在探讨如何使用逆优化控制（IOC）从演示学习行为，具体应用于对高维机器人系统的扭矩控制。作者提出了一种算法，能够学习任意的非线性成本函数 (如神经网络)；同时提出了一种针对 MaxEnt IOC 的高效的基于采样的近似方法。通过一系列模拟任务和真实的机器人操作问题的评估，该方法能够实现显著的任务复杂度和样本效率的提升。

Mar, 2016

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

使用人类演示进行神经网络预训练的深度强化学习

通过使用小规模的人类演示来完成深度强化学习网络的预训练，可以更好地发现特征，并且可以使训练时间显著缩短，并可在 Atari 2600 游戏中实现。

Sep, 2017

使用逆强化学习和深度 Q 网络进行驾驶学习

提出一种使用深度 Q 网络进行逆向强化学习 (IRL) 来提取大状态空间问题中奖励的方法，并在基于模拟的自主驾驶场景中评估其性能。结果表明，经过几次学习后，模拟代理能够生成无碰撞的运动，并表现出人类般的变道行为。

Dec, 2016

学习人类偏好以便推理奖励的可行性探讨

我们提出一种基于不可微分计划器的逆强化学习，用于推断从专家提供的演示中学习奖励函数，并与采用特定假设的数学模型相比，我们的方法可以得到更好的奖励推断，同时保持在数据驱动方法和已知人类偏差之间的平衡。

Jun, 2019

基于人类认知和重量自适应的越野自主驾驶运动规划

提出一种基于人类认知和成本评估的自适应运动规划器，以实现自动驾驶车辆在复杂地形和挑战性场景中的稳定高效行驶。通过构建多层地图描述不同的越野地形特征，并利用 CNN-LSTM 网络学习人类驾驶员在各种越野情景下规划的轨迹，设计了基于原始轨迹和成本权重选择的轨迹规划器，能生成与越野车辆动力学一致的高度自适应、稳定、高效的轨迹。在复杂地形和不同路况的沙漠越野环境中进行实验证明，提出的人类化运动规划器在不同越野条件下具有极好的适应性，实时操作、更大稳定性，并且在多样化和挑战性场景中具备更加人类化的规划能力。

Apr, 2024