- 针对阿喀琉斯之踵的调查:生成模型的红队演练
生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。
- 可解释人工智能用于高光谱图像分析的红队建模
本文介绍了一种方法,使用可解释的人工智能领域的事后解释方法,对在 HYPERVIEW 挑战中获胜并在 INTUITION-1 高光谱任务上部署的模型进行关键缺陷验证,同时提出了一种融合领域专业信息的可视化解释新方式,以更好地解释高光谱图像分 - AI 评估与红队行动的安全港湾
对生成式人工智能系统进行独立评估和红队测试对于识别风险至关重要,但主要人工智能公司用于阻止模型滥用的服务条款和执法策略对善意安全评估存在不利因素,因此一些研究人员担心进行此类研究或公开发现将导致账户暂停或法律报复。我们提议重要人工智能开发者 - ICLR大型语言模型的好奇心驱动的红队扮演
通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。
- ACL基于梯度的语言模型红队测试
基于梯度的红队技术(GBRT)是一种自动生成多样的提示,很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示,我们训练了 GBRT。为了提高输入提示的连 - 走向多模态多语种翻译的红色团队
自然语言处理性能评估变得越来越复杂,本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用,为理解和改进翻译模型的性能迈出了重要一步。
- 红队模拟可视化语言模型
研究通过 RTVLM 数据集评估当前开源 VLM 在红队评测中的性能差距,结果显示这些 VLM 在不同程度上面临红队挑战,并且与 GPT-4V 相比,性能差距高达 31%。将红队诱导方法应用于 LLaVA-v1.5 模型,性能提高了 10% - ACL大规模语言模型的红队攻防:解决数学任务中的幻觉问题
评估不同提示技术对解答质量的影响,通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现,尽管结构化推理和提供解题示例可以减缓解答质量的恶化,但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳,即 - 保障海上自治系统中人工智能的红队框架
通过使用一种多部分检查表的框架,我们展示了如何高效地评估海上自主系统的人工智能安全,并揭示其中的多个漏洞,从中毒到对抗性补丁攻击。通过系统化的人工智能红队行动,我们可以防止与提高对使命关键人工智能的接受和依赖性相应的严重事件。
- 不以为意:从语言模型中引发冒犯
通过红队测试针对语言模型的自动化测试用例生成方法,实现语言模型的可靠部署,检测其鲁棒性和失败模式。
- 从零开始进行红队攻防测试语言模型的探索、建立和利用
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含 - 大型语言模型是否可以通过对抗方式改变用户偏好?
本研究从注意力探测、红队作战和白盒分析等多个角度,探讨预训练大型语言模型在用户喜好中的敌对行为,并针对 ChatGPT 和 GODEL 等对话模型提供红队样本,同时探究后者在非对抗性和对抗性环境下的注意力机制。
- 将红队化的语言模型减少危害:方法、扩展行为与经验教训
本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
- 使用语言模型对语言模型进行红队测试
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。