评估 200 + 定制 GPT 的提示注入风险
使用 PromptInject 对 GPT-3 进行了安全性评估,发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性,导致潜在的风险
Nov, 2022
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。
Nov, 2023
这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性,通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现,在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译,而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算,评估从从实际翻译员的视角主观和定性地进行,结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译,从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用,特别是在营销文件和文化习语的背景下。
Aug, 2023
该研究论述了 ChatGPT,这是一个利用主题建模和强化学习生成自然回复的人工智能聊天机器人。通过探索从 GPT-1 到 GPT-4 的升级路径,讨论模型的特点、局限性和潜在应用,该研究旨在揭示将 ChatGPT 融入我们日常生活中可能存在的安全、隐私和伦理问题,并分析这些领域的开放问题,呼吁共同努力确保安全和道德无可争议的大型语言模型的发展。
Jul, 2023
本文探索了 ChatGPT 在涉及完整漏洞管理过程的六项任务中的能力,并使用包含 78,445 个样本的大规模数据集对其进行了比较。结果表明 ChatGPT 在辅助漏洞管理方面具有巨大的潜力,但同时也揭示了它所遇到的困难,并为未来的研究方向提供了启示。
Nov, 2023
本文旨在提供有关 ChatGPT 的安全风险的概述,包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究,检验了 ChatGPT 内容过滤器的有效性,并探讨了绕过这些保护措施的潜在方式,展示了即使当有保护措施时,LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析,我们讨论了应对这些风险的潜在策略,并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献,强调了在此领域需要继续进行研究的必要性。
May, 2023
该研究提出了一种创新的方法,在临床决策中应用大型语言模型(LLMs),重点关注 OpenAI 的 ChatGPT。我们的方法介绍了在数据稀缺情况下,采用上下文提示(策略性地设计了包括任务描述、特征描述和领域知识整合的提示)进行高质量二元分类任务的应用。我们的研究探索了 LLMs 基于零样本和少样本提示学习的动态性,通过比较 OpenAI 的 ChatGPT 在不同数据条件下与传统监督式机器学习模型的性能,旨在提供对不同数据可用性下提示工程策略有效性的见解。这篇论文架起了人工智能和医疗保健之间的桥梁,提出了一种新的 LLMs 在临床决策辅助系统中的应用方法,并强调了提示设计、领域知识整合和灵活学习方法在增强自动化决策方面的变革潜力。
Aug, 2023
本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁,通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。
Apr, 2023
本论文研究了生成 AI 模型的漏洞与潜在威胁,并讨论了社会、法律和伦理方面的影响,提出了防御技术和道德准则,并探讨了未来的研究方向。
Jul, 2023
使用 ChatGPT 进行 Python 源代码的漏洞检测的可行性研究,结果表明 ChatGPT 可以降低误报和漏报率,并具有潜力用于 Python 源代码的漏洞检测。
Aug, 2023