unsafe responses | BriefGPT

关键词unsafe responses

搜索结果 - 4

ACLGrounDial: 基于人类规范的安全对话响应生成
基于大型语言模型（LLMs）的当前对话式人工智能系统已知生成不安全的回应，同意冒犯性的用户输入或包含有害内容。以前的研究旨在缓解毒性，通过使用手动注释的安全对话历史来微调 LLM。然而，对额外微调的依赖需要大量成本。为了消除这种依赖，我们提
PDF5 months ago
ACL基于梯度的语言模型红队测试
基于梯度的红队技术（GBRT）是一种自动生成多样的提示，很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示，我们训练了 GBRT。为了提高输入提示的连
PDF5 months ago
SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件
开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而，缺乏适当的引导和保障，大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容，这对企业和开发者来说是一个重大的安全风险。我们引入了 Si
PDF8 months ago
自动检测神经对话模型的问题
本文提出采用强化学习等两种方法来自动触发对话模型产生问题响应，以揭示现有最先进的对话模型存在的安全和矛盾问题。
PDF3 years ago