red-teaming | BriefGPT - AI 论文速递

关键词red-teaming

搜索结果 - 9

学习大型语言模型上多样化的攻击方法，用于鲁棒性红队和安全优化
使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练，生成多样且有效的攻击触发词，攻击方法对多种目标大语言模型有效，且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。
PDFa month ago
撒下风，收获飓风：编辑语言模型的影响
人工智能领域中，大型语言模型的红队测试或越狱概念成为一项关键研究领域，本文通过模型编辑的方式调查了这种修改的复杂后果，并揭示了在提高模型准确性和保护伦理完整性之间存在的复杂关系。研究发现，注入准确信息对模型的可靠性至关重要，但却可能不可预测
PDF5 months ago
大型语言模型中的隐私问题：综述
在大型语言模型中，该研究对隐私问题进行了第一次调查，重点关注对模型进行红队测试以凸显隐私风险、试图将隐私性纳入训练或推理过程、实现从训练模型中高效删除数据以遵守现有隐私法规，并试图缓解版权问题。
PDF7 months ago
MART：利用多轮自动红队测试提高 LLM 的安全性
提出了一种名为 MART（Multi-round Automatic Red-Teaming）的自动多轮红队方法，通过自动对抗性提示编写和安全响应生成，显著提高了红队的可扩展性和目标大型语言模型的安全性。
PDF8 months ago
语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。
PDF8 months ago
低资源语言越狱 GPT-4
我们的研究揭示了语言模型的人工智能安全训练和红队测试存在的语言不平等性跨语言漏洞，通过成功将不安全的英文输入转化为低资源语言来规避 GPT-4 的安全机制。我们的工作证明，GPT-4 在与这些不安全的翻译输入互动时会提供可行的建议，并成功帮
PDF9 months ago
红队游戏：红队语言模型的博弈理论框架
用于量化 LLMs 的多样化攻击策略和优化方法，并通过构建红队和蓝队语言模型之间的对抗游戏理论基础，提出一种无需人工标注的红队技术，有效提升了大型语言模型的安全性。
PDF9 months ago
通过话语链安全对齐红队大型语言模型
基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。
PDFa year ago
从人类到自主引导代理的知识获取方法的多学科综述
本文综述了人类活动系统中的知识获取方法，并提出了三类方法的分类：人力代理、人类启发代理和自主机器代理方法。作者们指出，这一分类的动机源于人类活动系统的结构、含义和目的随时间的不断变化，这也推动了研究人员和实践者对知识获取的努力。最后作者们讨
PDF6 years ago