使用Actor-Critic强化学习在受控感知下的异常检测

May, 2020

使用Actor-Critic强化学习在受控感知下的异常检测

Anomaly Detection Under Controlled Sensing Using Actor-Critic Reinforcement Learning

Geethu Joseph, M. Cenk Gursoy, Pramod K. Varshney

TL;DR本文提出了一种利用二进制传感器测量识别异常的算法，将问题转化为在Markov决策过程框架下的顺序假设检验问题，使用Actor-Critic深度强化学习算法解决，并在数值实验中证明了其在适应任何未知统计依赖模式的处理过程方面的优异性能。

Abstract

We consider the problem of detecting anomalies among a given set of processes using their noisy binary sensor measurements. The noiseless sensor measurement corresponding to a normal process is 0, and the measurement is 1 if the process is anomalous. The decision-making algorithm is as

发现论文，激发创造

使用深度学习的主动序贯假设检验政策设计

该研究使用基于深度学习的启发式和KL分歧零和游戏设计方法来解决部分可观测马尔可夫决策过程中的主动序贯假设测试问题，并表明在某些情况下所提出的启发式方法优于现有方法。

Oct, 2018

借助逆强化学习实现序列异常检测

该研究提出了一种基于逆强化学习的端到端框架来实现序列异常检测，使用神经网络表示奖励函数，并采用贝叶斯方法来构建可靠的异常检测方法。

Apr, 2020

朝向深度监督异常检测：从部分标记异常数据中强化学习

该论文提出了一个基于深度强化学习的方法来解决在只有有限的异常样本和大量无标注数据集的情况下进行异常检测的问题，该方法在自动交互式模拟环境中学习已知异常，并通过探索从而将学习到的异常扩展到未知异常，最终取得了比五种已有方法更好的实验效果。

Sep, 2020

使用循环神经网络和模型无关强化学习进行未知环境中的主动假设检验

该研究提出一种深度强化学习和监督学习相结合的方法，用于解决在完全未知环境中的主动顺序假设测试问题。结果表明，与Chernoff测试相比，该方法在有限和无限视野问题中表现出竞争力并有时表现更好。

Mar, 2023

深度多智能体强化学习在去中心化主动假设测试中的应用

我们提出了一种基于深度多智能体强化学习框架的算法，名为 MARLA，用于多智能体主动假设检验问题，通过将每个智能体的状态映射到行动，从而最小化贝叶斯风险。我们通过实验结果有效展示了智能体学习协作策略和通过 MARLA 提升性能的能力，并展示了 MARLA 在单个智能体学习方法上的优越性。最后，我们提供了 MARLA 框架的开源实现，以方便相关领域的研究人员和开发者。

Sep, 2023

基于学习的序列控制感知的异常检测

通过学习控制感知，本文解决了检测给定二进制过程中异常的问题。我们设计了一种顺序选择策略，以最小化决策延迟和总感知成本，并使用深度增强学习和深度主动推断算法来解决该问题。

Nov, 2023

ADT: 基于代理的动态阈值方法进行异常检测

本研究通过将阈值问题建模为马尔可夫决策过程，并基于深度 Q 网络提出了一种基于代理的动态阈值 (ADT) 框架，该框架可以用于需要动态阈值的多个系统。通过利用自编码器从复杂输入数据中获取特征表示并生成异常得分，ADT 可以自适应地调整阈值，并显著改善异常检测性能。通过在三个真实数据集上进行实验证明了 ADT 的阈值能力、数据高效学习、稳定性和鲁棒性，并验证了强化学习在异常检测中的最优阈值控制的有效性。

Dec, 2023

通过DQN进行半监督学习的日志异常检测

本文提出了一种名为DQNLog的半监督日志异常检测方法，它结合了来自深度强化学习的DQN算法，通过有效地利用少量标记数据和大规模未标记数据集，解决了数据不平衡和标记不足的挑战，不仅可以学习已知异常，还可以主动探索未标记数据集以发现未知异常，并在深度强化学习中引入了交叉熵损失项以防止模型过高估计，通过对三个广泛使用的数据集的评估，证明DQNLog在提高召回率和F1分数的同时保持精确度，验证了其实用性。

Jan, 2024

OIL-AD: 一种适用于顺序决策序列的异常检测框架

提出了一种名为Offline Imitation Learning based Anomaly Detection (OIL-AD)的无监督方法，使用行动优化和顺序关联两个抽取的行为特征来检测决策序列中的异常，通过学习Q函数和状态值函数从正常轨迹中提取这两个特征，实现了在线异常检测性能上显著提高，F1分数比可比较的基线模型提高了34.8%。

Feb, 2024

基于因果推论的自适应强化学习异常检测方法

本研究提出了一个创新的反事实因果强化学习模型，称为Tri-CRLAD，利用因果推断机制，显著提高半监督模型的性能，增强模型在面对未知或稀有数据时发现异常数据的能力，并通过三重决策支持机制进一步提升模型的灵活性和泛化能力，在包括卫星系统、医疗系统和健康系统在内的 7 个不同智能系统数据集中，Tri-CRLAD 的性能优于或等于 9 个基准方法，而且极少量的已知异常样本能够显著提高异常检测的稳定性。

May, 2024