RACONTEUR:一个知识丰富、洞察力强且便携的LLM驱动的Shell命令解释器
通过使用大型语言模型 (LLMs) 以及对MITRE AT&CK框架中的Tactics,Techniques和Procedures (TTPs) 进行训练,我们研究了它们在预测ATT&CK tactics方面的能力,发现BaseLLMs提供更加集中和清晰的ATT&CK tactics预测,而LLMs则提供更广泛的网络攻击技术解释。虽然LLMs具有强大的潜力,但它们的预测中存在内在歧义。因此,我们总结了现有的挑战,并建议LLMs研究方向以处理TTP描述的内在歧义。
Jun, 2023
本论文介绍了一种系统方法,LogPr'écis,用于自动化分析类似文本的Unix shell攻击日志,并演示了它对两个包含约400,000个唯一Unix shell攻击的大型数据集的支持能力。
Jul, 2023
本研究提出了一种基于大型语言模型的动态真实软件蜜罐的新方法,初步结果表明该方法能够解决先前蜜罐的一些重要限制,如确定性应答、适应性不足等,我们通过与攻击者实施的实验评估了每个命令的真实性,所提出的蜜罐(称为shelLM)的准确率达到0.92。
Aug, 2023
通过使用预训练的DistilBERT模型,结合无监督学习和监督学习技术,实现了在Unix shell会话中检测异常行为的全面方法,从而捕捉到与正常行为不符的会话偏差,证实了利用最新的transformer技术解决重要的计算机安全挑战的潜力。
Oct, 2023
使用编码器-解码器结构的大型语言模型(LLM)在解释攻击者行动方法(Tactics, Techniques, and Procedures)时存在问题,为此我们提出使用检索增强生成(Retrieval Augmented Generation)技术来提取相关上下文以改进解码器-LLM的表现。研究结果显示,直接使用解码器-LLM和仅对编码器-LLM进行监督微调的方法都无法准确解释网络攻击步骤,而将检索增强生成技术应用于解码器-LLM则显著提升了解释能力。本研究进一步揭示了在解释行动方法时使用检索增强生成技术的限制和能力。
Dec, 2023
使用大型语言模型(LLMs)在网络安全中模拟后入侵阶段的攻击,通过将LLMs自动化来改善组织的网络安全状况,扩展红队的效力并预先检测新型攻击行为。
Mar, 2024
大型语言模型引入新的安全风险,但缺乏综合评估套件来衡量和减少这些风险。我们提出了BenchmarkName,这是一个用于量化LLM安全风险和能力的新型基准。我们介绍了两个新领域的测试:提示注入和代码解释器滥用。我们评估了多种最先进的LLMs,包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明,消除攻击风险的条件仍然是一个尚未解决的问题;例如,所有测试模型在成功的提示注入测试中显示出26%到41%之间的结果。我们进一步引入了安全效用权衡:将LLM条件化以拒绝不安全的提示可能导致LLM错误地拒绝回答良性提示,从而降低效用。我们建议使用False Refusal Rate(FRR)来量化这种权衡。作为示例,我们引入了一个新的测试集来量化网络攻击有用性风险的FRR。我们发现,许多LLMs能够与“边界线”良性请求成功地相符,同时拒绝大部分不安全的请求。最后,我们量化了LLMs在自动化核心网络安全任务(例如利用软件漏洞)方面的效用。这很重要,因为LLMs的进攻能力引起了极大的兴趣;我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型,但LLMs在利用生成方面还需要进一步的工作。我们的代码是开源的,可以用于评估其他LLMs。
Apr, 2024
介绍了一种全面评估模型对提示提取攻击易感性的新方法和基准测试,以及对现有防御和模型韧性的有效性进行评估,为评估LLM对提示提取攻击的鲁棒性建立了更系统的基准测试,并提出了攻击原因和潜在对策。
Jun, 2024
本研究解决了语言模型(LM)在网络安全中针对识别漏洞和执行攻击能力评估的不足。提出的Cybench框架涵盖40个专业级的捕旗(CTF)任务,创设了更高效的评估方法,从而提升了评估结果的准确性和有效性。最显著的发现是,通过引入子任务,模型在完成任务的成功率上显著提高3.2%。
Aug, 2024