多智能体对抗逆强化学习
本文提出了一种新颖的反向强化学习算法,基于对抗奖励学习框架,该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性,提高了强化学习的性能和应用范围。
Oct, 2017
本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法(IMARL),该算法可以解决复杂物理系统的集体动态问题,并在单智能体模型和多智能体模型下展现了优异的性能。
May, 2023
在这篇研究论文中,我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面:策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法,以增强样本效率,并且可识别 AIRL 相对于 SAC 具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿,但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题,我们指出 SAC 算法本身无法在 AIRL 训练过程中全面解藕奖励函数,并且提出了一个混合框架 PPO-AIRL + SAC,以实现满意的转移效果。此外,我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。
Mar, 2024
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023
Multi-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) is developed to learn hierarchically-structured multi-task policies that are more beneficial for compositional tasks with long horizons and has higher expert data efficiency; MH-AIRL synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL compared to SOTA MIL baselines.
May, 2023
本文提出一种深度逆强化学习框架,使用狄利克雷过程的工具,通过无标签专家示范学习先前未知的多个非线性奖励函数,同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理,我们将其建模为潜在意图分布的混合,并提出两种算法来估计深度奖励网络的参数和专家意图的数量。
Jul, 2021
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化后验,通过优化其推断的奖励表现出良好性能,并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。
Jun, 2024
本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions),以优化从有限的演示中推断表达丰富的奖励函数的能力,并演示了该方法可以有效地从图像中恢复新任务的奖励。
May, 2018
通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入,本文在简单的 Catcher 游戏上取得了高水平表现,显著超越了 CNN-AIRL 基线,但在 Enduro Atari 赛车游戏中表现不佳,这彰显了需要进一步研究的必要性。
Oct, 2018
提出了一种多任务分层对抗逆强化学习方法 (MH-AIRL), 用于训练具有分层结构的多任务策略,以提高复合任务的表现,增强对复杂、长周期任务的训练效率,降低数据需求以及提高对专家演示的利用效率。实验证明,与现有算法相比,MH-AIRL 表现更优。
Oct, 2022