- 提问者是谁?用户人设与潜在不一致的机制
我们的研究揭示了现象的运作机制,发现模型的安全性调优仍存在潜在的错位能力,尽管已经进行了提高。我们证明了即使模型的生成是安全的,有害内容仍然可以存在于隐藏表示中,并且可以通过从较早层进行解码来提取。我们还发现,模型是否泄露此类内容在很大程度 - MM用户偏好动态下的推荐系统伤害缓解
研究考虑了推荐系统、用户兴趣演化以及有害内容之间的相互作用,建模了推荐对用户行为的影响,特别是对有害内容消费的倾向性。旨在找到在最大化点击率(CTR)和减轻伤害之间建立权衡的推荐策略,并提出了在稳态下找到最优推荐策略的算法。在以真实数据初始 - OSPC: 使用大型语言模型作为催化剂检测有害的网络迷因
通过图像字幕、OCR 和大型语言模型 (LLM) 分析来检测有害的 Internet 恶搞图片,并在新加坡的多元文化和多语言环境中实现对有害 MEME 的综合理解和分类。
- 潜在的守卫:一种用于文本到图像生成的安全框架
通过在文本与图像生成模型的文本编码器上学习潜空间,Latent Guard 提出了一种用于改进文本与图像生成中安全性措施的框架,能够检测输入文本嵌入中存在的有害概念。
- 分析深度对话中的有害性:Reddit 案例研究
使用基于树的方法分析在线社交媒体上用户对有害内容的行为和上下文,研究发现毒性评论会增加在线对话中产生后续毒性评论的可能性,并观察到在用户行为和模式方面,共识亵渎与非共识亵渎存在重叠的相似性。
- Eraser: 大语言模型中逆向防御通过遗忘有害知识
本文介绍了一种名为 Eraser 的新型防御方法,它能够有效减少各种攻击对模型的越狱成功率,而不影响模型的一般能力。
- 几乎零成本的安全微调:视觉大型语言模型的基准
当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题,我们筛选了一个视觉语言安全指令数据集 VLGuard,并将其整合到标准的视觉语言微调中,使模型在安全性方面得到了有效的提升,同时对模型的帮助性影响最小 - 攻击之树:自动破解黑盒 LLM
使用大型语言模型和树状攻击剪枝自动生成越狱(黑盒攻击)的方法,有效地生成恶意、偏见和有毒内容。
- Prompt Packer:通过隐藏攻击的组合指令欺骗 LLMs
最近,大型语言模型(LLMs)已越来越多地集成到各种 Web 应用程序中,并进行对齐训练,以确保生成的内容与用户意图和伦理相一致。然而,它们仍存在在实际应用中生成恶意内容(如仇恨言论和犯罪活动)的风险。本文引入了一种创新的技术来混淆恶意指令 - 暗影对齐:篡改安全对齐语言模型的容易程度
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和 - 如何定义有害对数据标注的影响:解释注解者如何区分令人厌恶、冒犯和有毒评论
通过研究定义 ' 伤害 ' 的方式是否影响注释结果,我们发现研究者定义 ' 令人讨厌 '、' 冒犯 ' 和' 有害 ' 这些伤害概念时,注释员并不将它们看作同义词,且伤害定义的特征和注释员的个人特点解释了他们在使用这些术语上的差异,结果表明 - LLM 自卫:通过自我检验,LLM 知道自己被欺骗
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
- 因果引导的跨平台仇恨言论检测中的解缠
社交媒体平台上存在有害内容的传播问题,目前的深度学习和自然语言处理模型在检测这些有害内容时过于依赖特定领域术语,影响了它们在泛化仇恨言论检测方面的能力。我们的研究提出了一种跨平台仇恨言论检测模型,可以在一个平台的数据上进行训练,并推广到多个 - 超越杂草的种子:绿色团队协作生成人工智能以实现益处使用
本文介绍了一种称为 Green Teaming 的设计方法,它可以绕过 GM 内容过滤器,设计有益于人的用例,用三种例子显示了它的实际应用和批判模式,并讨论了它如何挑战和颠覆现有的生成 AI 中的有害内容和价值理解。
- ChatGPT:在社交媒体中检测和区分令人讨厌、攻击性和有毒评论的承诺
研究使用 ChatGPT 与 MTurker 注释进行 HOT 分类, 结果显示 ChatGPT 的准确率约为 80%,且分类方式比人工注释更一致,但其对 “毒性” 的分类大于对 “仇恨” 和 “冒犯” 的分类。研究结果对于使用生成式 AI - 基于社区的网络免疫算法
该论文提出了一种基于社区的 COmmuNiTy-based Algorithm,称为 CONTAIN,用于检测社交网络中的有害内容传播者,从而保护网络免受任意扩散的影响,并通过实验证明其比现有的算法快速收敛。
- 基于困惑度的跨语言异构 Web 数据成人和有害内容检测方法
本文探讨检测多语言异构 Web 数据中成人和有害内容的不同方法,利用 perplexity 方法训练文本数据分类器可以使具有相似特征的文档聚合成不同的组群,从而实现更精确的分类。
- EMNLP测量斯堪的纳维亚语言模型中的有害表达
通过手动创建基于模板的句子和探索模型进行补全的方式,研究表明,覆盖丹麦语、瑞典语和挪威语的九种模型包含有害的、基于性别的刻板印象,在所有语言中具有类似的价值,这一发现违背了人们对于斯堪的纳维亚国家的性别平等的一般期望,同时表明在实际使用这些