通过大规模语言模型之间的多模态辩论实现可解释的有害表情包检测
本论文提出了一种基于多模态信息相互作用的先进推理的检测有害模因的方法,通过利用大型语言模型的推理能力和生成框架,实现了对有害模因的优化检测。实验证明该方法在有害模因检测任务上表现优于现有方法。
Dec, 2023
本文针对当前因网络平台被用于地缘政治事件和社会问题而使得互联网谣言的信息审核变得更加困难,旨在设计实现一个多模态分类方法,利用文本和图像来识别有害的网络谣言,通过举例和原型推理比较示范算法之间的性能差异,为社区提供启发,同时设计一种用户友好的界面以方便对比分析结果。
Dec, 2022
本文提出了一种新的多模态方法,将图像字幕流程融合到恶意模因检测过程中,以提高其有效性,以在 Hateful Memes Detection Challenge 上取得了良好的结果。
Nov, 2020
本篇论文旨在针对多种形式的恶意言论,特别是采用 Memes 表达的恶意言论开发一种新的多模态框架,该框架通过交叉验证的集成学习等增强措施,有效提高了已有多模态方法的性能,并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53,位列第四。
Dec, 2020
本研究提出了两种新的问题定义:检测有害的互联网模因及其攻击的社会实体,并提供了 HarMeme 数据集。评估结果表明,使用多模态信号对这两个任务都很重要,但是需要进一步研究来解决现有模式的局限性。
Sep, 2021
通过提出多模式解释与 CLIP 投影的多模式共享私有多任务方法,首次为混合代码网络欺凌迷因引入了一种鲜明的基准数据集,并通过实验结果证明,训练多模式解释可以提高生成文本解释的性能,并更准确地识别支持决策的视觉证据,从而可靠地提升性能。
Jan, 2024
该综述以有害网络迷因为研究对象,提出了新的分类方法,调查了相关研究现状,发现现有的数据集存在问题,迷因可通过多种语言进行传播,涉及的多模态语言和技术难题需要面对。
May, 2022
通过图像字幕、OCR 和大型语言模型 (LLM) 分析来检测有害的 Internet 恶搞图片,并在新加坡的多元文化和多语言环境中实现对有害 MEME 的综合理解和分类。
Jun, 2024
社交媒体上传播仇恨的行为越来越多,其中包括使用多模态方式的恶意内容,容易被现有的检测系统所规避。本文通过对现有系统进行外部对抗攻击,检验了其脆弱性,并提出了使用对比学习和基于对抗训练的方法来提高鲁棒性。实验结果表明,使用这两种方法可以在某些攻击下重获性能。
Feb, 2023
提出一种新颖的基于逻辑的神经模型,该模型将可解释的逻辑子句集成到目标任务的推理过程中,以检测多模态误解信息,通过在神经表示中参数化符号逻辑元素来实现学习的有效性,并引入五个元预测以使我们的框架具有多样性。
May, 2023