在强化学习中模仿受成本约束的行为

Mar, 2024

Imitating Cost-Constrained Behaviors in Reinforcement Learning

Qian Shao, Pradeep Varakantham, Shih-Fen Cheng

TL;DR通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法，我们在考虑轨迹成本约束的情况下成功匹配了专家分布，并且在实证研究中证明了我们的元梯度方法具有最佳性能。

Abstract

complex planning and scheduling problems have long been solved using various optimization or heuristic approaches. In recent years, imitation lea

发现论文，激发创造

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

提出了一种新的模拟学习元算法 IMPLANT，利用决策时间规划来纠正模仿策略的复合误差，从而实现比基准模仿学习方法更好的实验效果，在挑战性测试时动态运行。

Apr, 2022

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

研究使用强化学习智能体从行为演示中学习约束以及将其迁移到具有不同形态和奖励功能的新智能体的方法，建立了能够在高维度完全无模型的情况下学习任意 Markovian 约束的框架，并且该方法与之前的工作相比，在离散设置、特定类型约束和环境转移动力学等方面表现更好。

Nov, 2020

提出了一种提取专家行为策略的新框架，直接从数据中提取策略，将模仿学习与生成对抗网络进行比拟，提出了无模型模仿学习算法，并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。

Jun, 2016

通过模仿学习和轨迹标记的方法，解决强化学习中的约束问题，并在实验中展示了其优越性能。

Dec, 2023

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020