使用强化学习发现指挥与控制渠道

Jan, 2024

使用强化学习发现指挥与控制渠道

Discovering Command and Control Channels Using Reinforcement Learning

Cheng Wang, Akshay Kakkar, Christopher Redino, Abdul Rahman, Ajinsyam S...

TL;DR通过采用基于强化学习的方法，模拟了一个三阶段的命令与控制流程，并建立了一个马尔可夫决策过程来最大化数据窃取的有价值主机数量，同时考虑到负载和防御机制，该方法在网络安全领域具有高效性且成果良好。

Abstract

command and control (C2) paths for issuing commands to malware are sometimes the only indicators of its existence within networks. Identifying potential C2 channels is often a manually driven process that involve

command and control malware c2 paths reinforcement learning network security

发现论文，激发创造

使用强化学习发现 Tor 和公共网络上的指挥和控制（C2）通道

本文通过强化学习机制，在公共网络和 Tor 网络下自动模拟 C2 攻击行动，配置负载大小和网络防火墙以模拟现实攻击场景，并在典型网络配置上显示了 RL 代理可以自动发现具有韧性的 C2 攻击路径，并绕过网络防火墙。

Feb, 2024

Raijū: 强化学习引导的后渗透自动化安全评估网络系统

我们提出了 Raiju 框架，这是一个基于强化学习的自动化方法，可帮助渗透测试人员快速完成网络系统的后渗透安全评估过程。通过使用两种强化学习算法（A2C 和 PPO）训练智能代理，我们实现了自动选择和执行行动以利用目标系统中的漏洞，从而自动化渗透测试工作流程的某些方面，增强其对新出现的威胁和漏洞的响应能力。

Sep, 2023

运用强化学习进行高级勒索软件攻击模拟的红队技术

该研究使用增强学习方法来模拟勒索软件攻击，通过训练模型来快速学习有效的攻击策略，揭示网络弱点并开发更强大的防御措施。

Jun, 2024

无线边缘多媒体流媒体结构化强化学习

通过使用学习型策略来确定在视频流媒体环境中哪些客户端应该动态优先考虑，以提升用户体验和增加 30% 的 QoE，并使用低计算复杂度的结构化策略进行快速学习。

Apr, 2024

深度强化学习在网络安全中的应用

本文综述了应用深度强化学习方法来解决网络安全领域中的复杂、动态和高维防御问题的 DRL 方法，并强调了 DRL 在网络物理系统，自主入侵检测和通过游戏模拟来应对网络攻击的策略防御方面的价值，同时也提出了对未来 DRL 网络安全研究发展的建议。

Jun, 2019

应对动态对抗性不确定性的网络系统防御中的深度强化学习

本文根据系统状态不确定性和攻防动态的特征，提出了一个数据驱动的 DRL 框架，学习上下文感知的防御措施，以动态适应不断变化的对抗行为，同时最大程度减少对网络系统运营的影响，在多阶段攻击和系统不确定性下，DRL 算法在积极的网络防御中具有很好的效果。

Feb, 2023

利用可解释的强化学习进入自治网络防御

本文介绍了一种终端到终端的方法，用于研究攻击策略、设计防御代理并解释其运行。使用状态图可视化对抗行为，我们使用一组深入强化学习代理来训练不同任务部分并组织在浅层次结构中的防御模型，最终设计与之前工作相比性能有了实质性提高。最后，我们进行特征削弱和重要性研究来更好地研究我们代理的决策过程。

Jun, 2023

针对基于强化学习控制器的模型提取攻击

本文提出了关于在通过使用增强学习（RL）算法训练深度神经网络（DNN）控制器并用于控制随机系统的情况下，攻击者试图估计该系统反馈控制器的模型获取攻击问题，并提出一个两阶段的算法来解决该问题。

Apr, 2023

用多智 - Agent 强化学习从零开始学习网络防御策略

深度学习技术的最新进展为自主网络防御的设计提供了新的可能性，智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径，该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法，表明这两种方法都优于简单的多代理启发式防御者，这项工作展示了合作多代理强化学习在学习有效的网络防御策略对抗不同威胁方面的能力。

Aug, 2023

用于路面交通管制的离线强化学习技术

本研究基于批量强化学习的方法，运用基于惩罚项的自适应奖励方式在普通的循环交通信号控制策略下，构建出一个马尔可夫决策过程（MDP）的学习框架，不仅提高了对于不同分布情境的管理优化，还显著提高了交通信号控制的效率。

Jan, 2022