- 连贯的软件仿真学习
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调 - 使用平均奖励标准的逆强化学习
本文提出了一种基于平均奖励框架的逆强化学习方法,并通过研发一系列随机一阶方法用以有效减少计算复杂度,这些方法可用于解决平均奖励马尔可夫决策过程的子问题,并为对策镜像下降法提供支持。最终,我们在 MuJoCo 基准测试和其他控制任务中进行数值 - Google Maps 中的大规模可扩展反向强化学习
本文提出了一种基于逆强化学习的新方法(RHIP),通过图形压缩、并行处理和基于特征向量的问题初始化等一系列方法,成功地解决了全局比例规模难题,并在实际交通环境中实现了更可持续的交通方案(例如,路线安全性),获得了全局路线质量的 16-24% - 逆向多智体强化学习在集体行为中的个体奖励探究
本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法(IMARL),该算法可以解决复杂物理系统的集体动态问题,并在单智能体模型和多智能体模型下展现了优异的性能。
- 具有约束恢复的逆强化学习
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
- ICML倒置强化学习的理论理解
本文中,我们介绍了使用生成模型的有限时间问题中逆强化学习(IRL)的可行奖赏估计问题,提出了关于可行奖赏集合的最小最大下界,并分析了平均复杂度。
- 使用被动 Langevin 动态的自适应逆强化学习的有限样本界
本文提供了一种用于反向学习的被动随机梯度 Langevin 动力学 (PSGLD) 算法的有限样本分析,并提供了 2-Wasserstein 距离的有限时间界限来衡量算法和基于前向学习的随机梯度算法之间的性能。
- 基于数据驱动的状态聚合方法用于动态离散选择模型
本文提出了一种基于数据驱动的算法来选择和聚合状态和估计动态不连续选择模型的最大似然结构参数,采用了先进的逆强化学习和聚类算法来减少计算和样本复杂度。
- 量子模仿学习
本文提出了量子模仿学习(QIL)概念及其实现方法,采用 Variational Quantum Circuits(VQCs)替代 Deep Neural Networks(DNNs)以提高表达能力,并利用 Quantum Advantage - MM通过高效的逆强化学习实现通信负载平衡
本文提出了一种采用逆向强化学习方法来解决通信负载平衡问题的方案,并通过从一组演示中推断出奖励函数和学习负载平衡策略的方法,取得了在真实场景中更适用和更具一般性的效果。实验表明所提出的方案优于其他基线方法。
- 核密度贝叶斯逆强化学习
介绍了一种使用基于条件核密度估计的贝叶斯逆转奖励学习(KD-BIRL)的算法,该算法能更有效地近似似然函数和应用于具有复杂和无限状态空间的环境,并在 Gridworld 环境和虚拟 sepsis 治疗任务中展示了其优势。
- 基于成对或 K 个比较的人类反馈的有原则强化学习
我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候,最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) - POMDP 中的 Task-Guided IRL
本文提出了一种新算法,用于部分可观测的马尔可夫决策过程中的反向强化学习,可增加数据效率并减少信息不对称,通过融合时间逻辑表达式作为先验信息,使用因果熵而不是熵,防止算法复杂度的通用来源,有效地解决了非凸问题,并在高级 Unity 仿真器中进 - 文本摘要的逆强化学习
本研究使用反向强化学习的方法构建了一个文本摘要模型,通过同时评估摘要代理的奖励函数和优化,我们证明该模型在诸多评测标准中优于 MLE 和 RL 基线模型。
- 基于控制壁函数的安全反向强化学习
本文提出了一个名为 CBFIRL 的安全 IRL 框架,利用控制屏障函数(CBF)增强 IRL 策略的安全性,通过梯度下降联合优化 CBF 要求灵感的损失函数和 IRL 方法的目标,在实验中表明我们的框架相较于没有 CBF 的 IRL 方法 - 模仿学习:清晰的实现
该研究提供了基于 PyTorch 的开源模型实现,包括三个逆强化学习算法、三个模仿学习算法和一个偏好比较算法,并使用模块化的实现方式使算法开发变得简单。通过自动化测试覆盖了 98% 的代码并已对以前的结果进行基准测试。
- 最大熵深度逆强化学习评估城市感知安全性
通过借鉴城市感知的专家评估政策,我们提出了一种新颖的基于 IRL 的框架来预测城市安全,并恢复相应的奖励函数,使用强化学习 (MDP) 来解决问题,并建立了一个基于众包的数据集 SmallCity 进行了研究。我们的结果表明,IRL 在这个 - 高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆 - 使用逆强化学习中的结构图案进行奖励学习
本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性,并提出了一种新的 IRL 方法 SMIRL,该方法将任务结构化为有限状态自动机,然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验,我们证 - 猜猜我在干什么”:将易读性扩展到序列决策任务
研究了不确定条件下顺序决策任务中可读性的概念。提出了一种名为 PoL-MDP 的方法,能够处理不确定性,同时具有计算上的可处理性,在多种模拟场景中证明了其在状态决策方面的优势,同时也表明该方法可以被用于反向强化学习。通过用户研究评估了该计算