harmful outputs | BriefGPT - AI 论文速递

关键词harmful outputs

搜索结果 - 4

单字扰动破坏 LLM 对齐
在敏感、面向人类的环境中部署 LLMs 时，确保不输出不安全、偏见或侵犯隐私的结果是至关重要的。本研究发现，尽管存在这些保护措施，但只需在模型输入的末尾添加一个空格，就可以很容易地破坏模型的防御机制。我们对八个开源模型进行研究后发现，这种攻
PDF4 days ago
提高对齐性和鲁棒性的短路
AI 系统在面临对抗性攻击时可能会采取有害行为，本研究提出了一种基于表示工程的方法，通过直接控制导致有害输出的表示来防止有害输出的生成，从而在不牺牲实用性的前提下，提供了可靠的防止有害行为和对抗性攻击的保护措施。
PDFa month ago
从零开始进行红队攻防测试语言模型的探索、建立和利用
本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含
PDFa year ago
将红队化的语言模型减少危害：方法、扩展行为与经验教训
本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。
PDF2 years ago