人工智能卫士的 LLM 辅助开发
过去十年来,人们对神经网络的鲁棒性进行了广泛的研究,但这个问题依然没有得到很好的解决。在这篇论文中,我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件,同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后,我们通过一个最近提出的防御方法进行演示,展示了在没有针对大型语言模型的最佳实践的情况下,过高估计新方法的鲁棒性的容易性。
Oct, 2023
大型语言模型 (Large Language Models,LLMs) 被广泛应用于各种应用中,代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中,LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4,ChatGPT,Bard 和 Gemini) 进行比较分析,使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化,以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外,我们强调安全意识,通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要,并指导未来在自动化代码生成领域的开发和实际应用。
Feb, 2024
通过生成式人工智能和大型语言模型(LLM),该论文对未来的网络安全进行了全面回顾,并探讨了 LLM 在硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测和钓鱼检测等各个领域的应用。论文提供了将 LLM 集成到未来网络安全框架中的基础理解和战略方向,强调创新和强大的模型部署以保护免受不断演变的网络威胁。
May, 2024
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过评估 OpenAI 的 GPT-4 等大型语言模型与传统的静态代码分析器(如 Snyk 和 Fortify)在检测软件漏洞方面的能力,我们发现 GPT-4 能够识别出大约四倍于其他模型的漏洞,并提供可行的修复方案,同时显示出较低的误报率。未来研究应当探索系统级漏洞,并整合多个静态代码分析器,以获得对大型语言模型潜力的全面视角。
Aug, 2023
通过引入多方面的方法,包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物,我们解决了大型语言模型在道德、安全和隐私方面的挑战,并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架,确保了更安全的用户体验并增加了对 AI 技术的信任。
Jan, 2024
本文报道了 OpenAI 发展的最新模型 GPT-4,证明其不仅能够掌握语言,而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务,表现接近于甚至超过人类的水平,代表了一种新的群体智能的语言模型,并可能被视为人工通用智能(AGI)系统的早期、但尚不完整的版本。同时,本文还探讨了 GPT-4 的局限性,指出其可能需要超越下一个预测的新范式,为实现更深入和全面的 AGI 版本的发展面临的挑战,以及该技术飞跃的社会影响和未来研究方向的反思。
Mar, 2023
利用大语言模型(如 GPT3.5)增强渗透测试人员的能力,通过高级任务规划和低级漏洞挖掘两个使用案例,实现了与人工智能合作伙伴的潜在应用,并在可漏洞虚拟机中实施自动化攻击向量及分析,并对提供基于人工智能的合作伙伴的伦理问题进行了讨论。
Jul, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
对大型语言模型的鲁棒性进行了攻击和评估,并在五项不同的文本分类任务上建立了新的鲁棒性基准,研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。
May, 2024