MMSD2.0: 面向可靠多模态讽刺检测系统
本研究提出了一个用于文档级多模式讽刺理解的全面基准测试,并引入了细粒度的讽刺理解方法,有效地将图像特征与文本特征在文档中进行对齐,实验证明该方法可以作为具有挑战性的 DocMSU 的基线方法。
Dec, 2023
本研究开发了一个多模态的印地语 - 英语混合数据集用于会话中的多模态讽刺检测和幽默分类,并提出了一种新的基于注意力机制的神经架构 MSH-COMICS,该模型在两个任务中都具有优越性能。
May, 2021
本篇研究提出了一种基于 CLIP 引导的对比学习的架构,用于执行多模态特征对齐,将来自不同模态的特征投影到一个统一的深度空间,实验结果表明,我们提出的模型在多模态讽刺检测和多模态情感分析任务中明显优于多个基准模型,我们的特征对齐策略相对于其他聚合方法和甚至富含知识的模型也带来了明显的性能增益,此外,我们的模型实现简单,无需使用特定任务的外部知识,因此可以轻松迁移到其他多模态任务。
Mar, 2024
通过引入 InterCLIP-MEP 框架,结合 InterCLIP 和 MEP,并改进文本 - 图像交互编码,实现了对多模态讽刺的更强鲁棒性的识别。
Jun, 2024
本文提出了一种基于层次结构的检测方法,通过多头交叉注意力机制和图神经网络同时探索文本和图像之间的原子级一致性和组成级一致性,利用丰富的外部知识资源进行讽刺检测,评估结果表明该模型优于现有的技术。
Oct, 2022
通过引入反事实数据增强和对抗学习的方式,本研究提出了一种新颖的去偏置多模态讽刺检测框架,旨在提高模型的鲁棒性和抑制有偏词语的不良影响,大量实验证明了该框架的卓越性能。
Dec, 2023
使用 MUStARD++ 数据集进行多模态严格基准测试,考虑最先进的语言、语音和视觉编码器,充分利用其多模态丰富性,实现超过现有基准的 2%宏平均 F1 值的改善;此外,提出了称为 MUStARD++ 平衡的扩展来解决 MUStARD++ 中 `sarcasm type` 类别的不平衡问题,通过将扩展中的实例分布于训练和测试集,进一步提升 2.4%的宏平均 F1 值。新的片段来自于电视节目 House MD,丰富了数据集的多样性,并由多名注释者进行了手动注释,根据 Cohen's kappa 和 Krippendorf's alpha 的显著的注释者一致性进行了注释。我们的代码、扩展数据和 SOTA 基准模型已经公开。
Sep, 2023
本文提出了一个多模态讽刺目标识别框架,采用从粗到细的方法,通过推理和预训练知识增强讽刺可解释性,在多模态讽刺中揭示复杂目标并减轻大型多模态模型潜在噪声的负面影响。实验结果表明,我们的模型在 MSTI 方法上表现出色,并在识别讽刺方面具有解释性。
May, 2024
该研究提出了一种名为 TEAM 的新的、基于多源语义图的多模态讽刺解释方案,从输入图像中提取对象级语义元数据,使用 ConceptNet 获取外部相关知识概念,并引入多源语义图来全面描述多源语义关系,以促进讽刺推理。
Jun, 2023