对齐先于关注：为多模态仇恨内容检测对齐视觉和文字特征

ACLFeb, 2024

对齐先于关注：为多模态仇恨内容检测对齐视觉和文字特征

Align before Attend: Aligning Visual and Textual Features for Multimodal Hateful Content Detection

Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque, Sarah M. Preum

TL;DR提出了一种上下文感知的注意力框架用于多模态仇恨内容检测，对英语和非英语语言进行了评估，并通过对 MUTE 和 MultiOFF 数据集的 F1 分数进行评估，证明了该方法的有效性。

Abstract

multimodal hateful content detection is a challenging task that requires complex reasoning across visual and textual modalities. Therefore, creating a meaningful multimodal representation that effectively captures the interplay between →

multimodal hateful content detection intermediate fusion context-aware attention framework visual and textual features low-resource languages

发现论文，激发创造

一种用于检测恶意模因的多模态框架

本篇论文旨在针对多种形式的恶意言论，特别是采用 Memes 表达的恶意言论开发一种新的多模态框架，该框架通过交叉验证的集成学习等增强措施，有效提高了已有多模态方法的性能，并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53，位列第四。

Dec, 2020

仇恨表情包检测的多模态学习

本文提出了一种新的多模态方法，将图像字幕流程融合到恶意模因检测过程中，以提高其有效性，以在 Hateful Memes Detection Challenge 上取得了良好的结果。

Nov, 2020

多模態仇恨自動偵測演算法評估

该研究探讨了使用语义和多模态上下文来检测隐含和明确的仇恨言论，并且发现使用这种方法可以提高模型性能。同时还针对一批 5000 个多模态内容样本进行了高质量的注释，并将其释放为公开可用的语料库和代码。

Jun, 2021

在线模因中的仇恨解构

本文提出了一种名为 DisMultiHate 的新框架，通过对目标实体进行解缠来提高多模式 meme 中令人讨厌内容的分类和可解释性。实验结果表明 DisMultiHate 能够胜过单一模态和多模态基线，这个方法对于多模态令人讨厌内容的分类任务具有很好的解释性。

Aug, 2021

基于情感的仇恨言论多模态学习检测

本文提出了首个多模式深度学习框架，将表达情感的音频特征与语义特征相结合，以检测有害的多媒体内容，包括暴力辱骂和冒犯性言论，结果表明，情感特征的结合可以明显提高系统的性能，同时我们也提出了一个新的有害言论检测视频数据集（HSDVD）以支持多模式学习。

Feb, 2022

多模态 Meme 中的仇恨言论检测

本文探讨在 Facebook Meme Challenge 中通过多模型和目标检测、图像说明和情感分析等技术的结合来解决恶意文本与图像的混淆问题以提高分类准确性。

Dec, 2020

关注融合：一种基于 Transformer 的多模态仇恨言论检测方法

通过结合音频和文本表征，利用 Transformer 方法和自主开发的 “Attentive Fusion” 层，本研究提出了一种识别言论是否宣扬仇恨的方法，取得了 0.927 的宏 F1 得分，超过了此前最先进的技术。

Jan, 2024

ARC-NLP 在 2023 年多模态仇恨言论事件检测中的应用：多模态方法增强了集成学习、句法和实体特征

文本嵌入图像用作传播仇恨言论、宣传和极端主义观点的手段。详情见摘要。

Jul, 2023

孟加拉模因和文本的多模态仇恨言论检测

本文旨在探讨利用机器学习和自然语言处理技术，通过分析包含图像和文本的 Bengali 跨媒体互动，检测恶意言论。我们准备了一个新颖的数据集，并使用双向长短时记忆网络、卷积神经网络、ResNet-152、DenseNet-161、monolingual Bangla BERT、multilingual BERT-cased/uncased 和 XLM-RoBERTa 等多种模型进行了实验，其中 XLM-RoBERTa+DenseNet-161 模型的 F1 得分最高为 0.83。

Apr, 2022

多模式出版物中仇恨言论检测的探讨

本文研究针对文本和图像组成的多模态出版物中仇恨言论的检测问题。我们从 Twitter 收集和注释了大规模数据集 MMHS150K，并提出了不同的联合文本和视觉信息的模型用于比较仇恨言论检测中的单一模态检测，提供了定量和定性结果并分析了所提出任务的挑战。我们发现，尽管图像对于仇恨言论检测任务很有用，但目前的多模态模型无法超越仅分析文本的模型。我们讨论了原因并开放该领域和数据集以进行进一步研究。

Oct, 2019