借助逆强化学习实现序列异常检测

KDDApr, 2020

借助逆强化学习实现序列异常检测

Sequential Anomaly Detection using Inverse Reinforcement Learning

Min-hwan Oh, Garud Iyengar

TL;DR该研究提出了一种基于逆强化学习的端到端框架来实现序列异常检测，使用神经网络表示奖励函数，并采用贝叶斯方法来构建可靠的异常检测方法。

Abstract

One of the most interesting application scenarios in anomaly detection is when sequential data are targeted. For example, in a safety-critical environment, it is crucial to have an automatic detection system to s

anomaly detection sequential data inverse reinforcement learning neural network bayesian approach

发现论文，激发创造

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

逆向强化学习的自动特征选择

逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法，通过使用线性组合特征表示奖励，借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题，并利用轨迹概率与特征期望之间的关联对特征进行选择，实验表明该方法能够恢复捕获专家策略的奖励函数，适用于越来越复杂的非线性控制任务。

Mar, 2024

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

针对限价订单簿动态的逆强化学习研究

本研究探讨了 IRL 是否能从金融随机环境（LOB）中的代理中推断出奖励，并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络（BNN）来模拟其潜在奖励函数，说明非线性奖励函数产生的复杂行为可以通过推断来推断。

Jun, 2019

贝叶斯逆强化学习用于非马尔可夫奖励

从专家行为中直接推断出奖励机制（RM）的贝叶斯逆强化学习（BIRL）框架，以非 Markovian 奖励函数为基础进行了重大改进，新的奖励空间定义，将专家示范调整为包括历史，展示了计算奖励后验的方法，并提出了一种模拟退火的新修改方案来最大化后验，通过优化其推断的奖励表现出良好性能，并与学习严格二值非 Markovian 奖励的现有方法进行了有利比较。

Jun, 2024

深度自适应多目的逆强化学习

本文提出一种深度逆强化学习框架，使用狄利克雷过程的工具，通过无标签专家示范学习先前未知的多个非线性奖励函数，同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理，我们将其建模为潜在意图分布的混合，并提出两种算法来估计深度奖励网络的参数和专家意图的数量。

Jul, 2021

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019