关键词adversarial inverse reinforcement learning
搜索结果 - 5
- 重新思考对抗性逆强化学习:从策略模仿和可转移奖励恢复的角度
在这篇研究论文中,我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面:策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法,以增强样本效率,并且可识别 AIR - 外部奖励的软 Q 模仿学习和判别器
利用鉴别器的软 Q 模仿学习算法(DSQIL)结合通过对抗逆强化学习的奖励函数,对小规模样本数据进行高效、鲁棒的模仿学习与训练。
- 通过反向强化学习实现可解释的深度强化学习模型
本研究提出了一种新的框架,利用对抗性逆强化学习,可以为强化学习模型做出的决策提供全局解释,并通过总结模型的决策过程来捕捉直观的倾向。
- AAAI程序化生成环境下高效演示逆强化学习
通过有限集的初始种子和一些训练稳定的修改,我们提出了一种基于对抗性反向强化学习的技术,名为 DE-AIRL,该技术能够显著减少对专家演示的需求,并仍能够将回报函数外推到完全程序化域,我们在 MiniGrid 和 DeepCrawl 的两个程 - AAAI具备自然语言目标的逆强化学习
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。