MARMOT：一个用于构建视觉 - 语言任务的多模态表征的深度学习框架

MMSep, 2021

MARMOT：一个用于构建视觉 - 语言任务的多模态表征的深度学习框架

MARMOT: A Deep Learning Framework for Constructing Multimodal Representations for Vision-and-Language Tasks

Patrick Y. Wu, Walter R. Mebane Jr

TL;DR本篇论文提出一种名为 MARMOT 的多模态视觉语言框架，该框架依靠模态转换构造了观测缺少图像或文本的表征，并在具有选举事件的推文多标签分类方面，在 19 个分类中优于仅使用文本的分类器。

Abstract

Political activity on social media presents a data-rich window into political behavior, but the vast amount of data means that almost all content analyses of social media require a data labeling step. However, mo

social media political behavior machine classification methods vision-and-language models multimodal representations

发现论文，激发创造

MaMMUT：联合学习多模态任务的简单架构

我们提出了一种使用解码器模型进行多模式任务训练的新范例，其中 MaMMUT 作为一个简单的模型，能够通过新颖的文本解码器的两次传递方法容纳对比和生成学习，并能够直接扩展到开放词汇的对象检测和视频语言任务，且该模型在多个任务上均取得了最佳效果。

Mar, 2023

鹦鹉：多语言视觉指令调整

Parrot 是一种新方法，利用文本指导在语言级别驱动视觉令牌对齐，以增强多语言大型语言模型的多模态能力，并提供了一个大规模多语言多模态基准测试数据集（MMMB）。

Jun, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

UPB 在 SemEval-2020 任务 8 中：多任务学习体系结构中的文本和视觉建模用于情感分析

本研究介绍了一个新颖的多模式多任务学习架构，该架构将 ALBERT 文本编码与 VGG-16 图像表示相结合，可用于分析互联网迷因，该方法在 SemEval-2020 Task 8 比赛的三个子任务中，均超过了官方基线结果。

Sep, 2020

多模态讨论变换器：将文本、图像和图层变换器整合在一起，在社交媒体上检测仇恨言论

我们提出了一种新颖的多模态基于图的 Transformer 模型（mDT），用于检测在线社交网络中的仇恨言论。与传统的仅处理文本的方法相比，我们的方法围绕整体分析文本和图像对评论进行仇恨言论标记。为了组合文本和图像嵌入而不是单独处理不同的模态，我们利用图 Transformer 来捕捉整个讨论中的上下文关系，并插入融合层。我们将模型的性能与仅处理文本的基准进行比较，并进行了广泛的消融研究。最后，我们提出了未来的工作，探讨多模态解决方案在在线环境中提供社会价值，并认为捕捉对话的整体观点大大推进了检测反社会行为的努力。

Jul, 2023

一种用于检测恶意模因的多模态框架

本篇论文旨在针对多种形式的恶意言论，特别是采用 Memes 表达的恶意言论开发一种新的多模态框架，该框架通过交叉验证的集成学习等增强措施，有效提高了已有多模态方法的性能，并在 Facebook 组织的 2020 年恶意 Memes 挑战的第二阶段中获得了 AUROC 评分 80.53，位列第四。

Dec, 2020

借用人类感官：面向社交媒体多模态分类的评论感知自我训练

本研究提出了一种利用用户评论建模和自监督学习的方法，用于在社交媒体上进行图像文字关系分类、讽刺检测、情感分类和仇恨言论检测等多模态分类任务，结果表明该方法进一步提高了先前最先进模型的性能。

Mar, 2023

视觉 - 语言模型评述及其在恶意模因挑战中的表现

提高社交媒体内容的自动审查效率，本文探讨了不同的模型并比较其在内容分类上的效果，结果表明，早期融合模型中 CLIP 表现最佳，其 AUROC 值为 70.06。

May, 2023

MERLOT: 多模态神经脚本知识模型

MERLOT 是一个模型，通过观看数百万个 YouTube 视频进行自我监督的无标签学习，学习多模态脚本知识，包括空间和时间和语境化的全局情况，从而在视觉场景中推理动态情境，形成出色的时间常识和现场表现，并在视觉常识推理方面表现出色。

Jun, 2021

使用多模态深度学习方法检测恶意表情包：恶意表情包挑战赛中获奖解决方案

Hateful Memes Challenge 使用 VisualBERT 多模态训练进行恶意标记检测，在挑战测试集中取得了 0.811 AUROC 和 0.765 的准确率，获得了 3173 名参赛者中的第三名

Dec, 2020