GOAT-Bench: 多模态大型模型的安全洞察力通过基于模因的社交滥用

Jan, 2024

GOAT-Bench: 多模态大型模型的安全洞察力通过基于模因的社交滥用

GOAT-Bench: Safety Insights to Large Multimodal Models through Meme-Based Social Abuse

Hongzhan Lin, Ziyang Luo, Bo Wang, Ruichao Yang, Jing Ma

TL;DR社交媒体的指数增长深刻改变了信息的创造、传播和吸收方式，在数字时代超过以往任何时候。遗憾的是，这种爆炸也引发了网络违规使用表情包的显著增加。针对包括隐性仇恨言论、性别歧视和网络欺凌等主题的超过 6k 个多样表情包，本文全面研究了各种大型多模型（LMMs）（如 GPT-4V）识别和应对表情包中微妙方面的社交虐待的能力。我们引入了全面的 GOAT-Bench 表情包基准，并利用 GOAT-Bench 深入研究了 LMMs 准确评估仇恨、厌女症、冒犯、讽刺和有害内容的能力。我们广泛使用各种 LMMs 进行的实验表明，当前模型仍然存在安全意识不足，对各种隐性虐待形式缺乏敏感性。我们认为这种不足对于实现安全人工智能构成了重要阻碍。GOAT-Bench 和相应资源可在该 https URL 上公开访问，为这个重要领域的持续研究做出贡献。

Abstract

The exponential growth of social media has profoundly transformed how information is created, disseminated, and absorbed, exceeding any precedent in the digital age. Regrettably, this explosion has also spawned a significant increase in the →

social media memes online abuse lmms goat-bench

发现论文，激发创造

OSPC: 使用大型语言模型作为催化剂检测有害的网络迷因

通过图像字幕、OCR 和大型语言模型 (LLM) 分析来检测有害的 Internet 恶搞图片，并在新加坡的多元文化和多语言环境中实现对有害 MEME 的综合理解和分类。

Jun, 2024

多模态和可解释的网络模因分类

本文针对当前因网络平台被用于地缘政治事件和社会问题而使得互联网谣言的信息审核变得更加困难，旨在设计实现一个多模态分类方法，利用文本和图像来识别有害的网络谣言，通过举例和原型推理比较示范算法之间的性能差异，为社区提供启发，同时设计一种用户友好的界面以方便对比分析结果。

Dec, 2022

揭示具多模态推理所精炼之大型语言模型背后的有害迷因

本论文提出了一种基于多模态信息相互作用的先进推理的检测有害模因的方法，通过利用大型语言模型的推理能力和生成框架，实现了对有害模因的优化检测。实验证明该方法在有害模因检测任务上表现优于现有方法。

Dec, 2023

GPT 是否具备分析表情包情感的能力？

本研究旨在探索 GPT-3.5 作为大型语言模型在处理互联网迷因情感分析方面的能力，包括迷因情感分类、幽默类型确定和隐性仇恨迷因检测。评估结果表明，尽管 GPT 取得了显著进展，但仍然面临内在限制，包括对上下文的理解、隐含含义的解释和数据偏见等。该研究对 AI 在处理复杂的、依赖上下文的任务方面的适用性进行了探讨，为未来的发展提供了有价值的见解。

Nov, 2023

BanglaAbuseMeme：孟加拉语辱骂梗分类数据集

使用社交媒体平台增加了信息共享，也导致在线滥用的急剧增加。Memes 是一种滥用个人或社群的简单而有效的方式，因此有必要开发检测和标记滥用 Memes 的高效模型。本文构建了一个孟加拉 Memes 数据集，并使用该数据集实现了多种基准模型来对滥用 Memes 进行分类。我们观察到使用文本和视觉信息的多模态模型优于单模态模型，最佳模型的宏 F1 分数达到了 70.51。最后，我们对最佳文本、图像和多模态模型的错误分类的 Memes 进行了定性错误分析。

Oct, 2023

通过大规模语言模型之间的多模态辩论实现可解释的有害表情包检测

通过基于大型语言模型的多模态辩论和小型语言模型的调优，我们提出了一种可解释的方法来检测有害的互联网迷因，使模型能够对模糊和隐含的危害模式进行辨别，并提供可视化的解释。

Jan, 2024

一种用于检测恶意模因的多模态框架

本篇论文旨在针对多种形式的恶意言论，特别是采用 Memes 表达的恶意言论开发一种新的多模态框架，该框架通过交叉验证的集成学习等增强措施，有效提高了已有多模态方法的性能，并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53，位列第四。

Dec, 2020

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

MemeGuard: 基于 LLM 和 VLM 的框架，通过梗图干预推进内容管理

通过使用大语言模型（LLM）和视觉语言模型（VLM），本研究提出了一种全面框架 MemeGuard 用于干预恶意的 multimodal（多模态）网络迷因，测试结果表明 MemeGuard 在生成恰当和有效应对恶意迷因方面表现出色。

Jun, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024