如何根据需要自行决策：利用强化学习代理辅助培养 LLM 在网络安全游戏中成为专家

Mar, 2024

如何根据需要自行决策：利用强化学习代理辅助培养 LLM 在网络安全游戏中成为专家

Depending on yourself when you should: Mentoring LLM with RL agents to become the master in cybersecurity games

Yikuan Yan, Yaolun Zhang, Keman Huang

TL;DR本研究介绍了 SecurityBot，一种由事先训练好的 RL 智能引导的 LLM 智能体，用于支持网络安全操作，在提供行为准则的基础上使用协作机制和动态建议，实现了与 LLM 或 RL 单独相比显著的性能提升。

Abstract

integrating llm and reinforcement learning (RL) agent effectively to achieve complementary performance is critical in high stake tasks lik

integrating llm reinforcement learning securitybot cybersecurity operations complementary performance

发现论文，激发创造

逃离束缚：随机鹦鹉在网络安全环境中的胜出

利用预训练的大型语言模型作为网络安全环境中攻击代理，模拟真实网络攻击并在复杂决策任务中展现良好性能。

Aug, 2023

针对强化学习网络攻击代理的多智能体网络战模拟器

本文介绍了一个名为 CyberBattleSim 的 RL 训练环境，其支持红方攻击者的训练，并引入了蓝方防御者的训练。实验表明，与红方攻击者同时训练的蓝方防御者能够更好地应对复杂的攻击手段。

Apr, 2023

LLMs 杀死了脚本小子：大语言模型支持的代理如何改变网络威胁测试的现状

本研究探索了大型语言模型在威胁推理、工具信息生成和自动化网络攻击方面的潜力，讨论了 LLM 在支持特定威胁相关行动和决策方面的手动与自动化探索，以及对威胁网络潜在影响和使用 LLM 加速威胁行为能力的伦理考量，对诱导可操作反应的提示设计进行了评估和启发，并提出了探索 LLM 在更复杂网络、高级漏洞和提示敏感性方面的未解问题。

Oct, 2023

通过强化学习实现算法代理和 LLM 之间的高效交互

本文主要介绍了使用基于强化学习的调解模型，来解决使用大型语言模型进行高级指令的效率和成本问题，并在四种实验环境下验证了该方法的准确性和效率。

Jun, 2023

用多智 - Agent 强化学习从零开始学习网络防御策略

深度学习技术的最新进展为自主网络防御的设计提供了新的可能性，智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径，该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法，表明这两种方法都优于简单的多代理启发式防御者，这项工作展示了合作多代理强化学习在学习有效的网络防御策略对抗不同威胁方面的能力。

Aug, 2023

Ollabench: 评估 LLMs 在人类中心互相依赖的网络安全方面的推理能力

通过 OllaBench 评估框架，综合考虑人类因素和认知计算能力，评估了 21 种大型语言模型在情景信息安全合规和不合规问题中的准确性、浪费程度和一致性，结果显示商业模型的整体准确性最高，但仍有改进的空间，小型开放权重模型表现不逊，模型间的记号效率和一致性存在显著差异，OllaBench 为人类中心的相互依赖性网络安全及其他领域的研究人员和解决方案开发者提供了一个用户友好的接口和广泛的 LLM 平台支持。

Jun, 2024

支持学生学习推荐的 LLM 基于知识图谱上下文化的聊天机器人

利用聊天机器人作为对话中介和有限生成解释的来源的基于 LLM 的聊天机器人支持学生理解学习路径建议。

Jan, 2024

运用大型语言模型革新网络威胁检测

本文介绍了 SecurityLLM，它是一个旨在检测网络安全威胁的预训练语言模型，其中 SecurityBERT 作为网络威胁检测机制，而 FalconLLM 则是一种事件响应和恢复系统，实验结果表明，我们的 SecurityLLM 模型可以在 98% 的准确率下识别 14 种不同类型的攻击。

Jun, 2023

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLM 增强分层代理

利用强化学习解决长期和拓展性任务很具挑战性，特别是在没有先验知识的情况下，为了提高样本效率，本文通过利用 LLMs 的规划能力结合强化学习的环境学习，构建了一个层次化代理，用于解决长期任务，并在 MiniGrid、SkillHack 和 Crafter 等仿真环境以及实际机械臂的块操作任务中验证了该方法的优越性能，且训练完成后不需要依赖 LLMs 进行部署。

Nov, 2023