多媒体社交分析的数据集和基准测试

CVPRJun, 2020

多媒体社交分析的数据集和基准测试

A Dataset and Benchmarks for Multimedia Social Analysis

Bofan Xue, David Chan, John Canny

TL;DR该论文介绍了一个通过从社交媒体网站获取包含多个成对图像 / 视频和文本的帖子以及包含图像 / 视频和 / 或文本的评论树来实现多模态学习的新的可公开获取的数据集，并提供了基线性能分析，适用于图像字幕、情感分析和预训练模型等多项任务。

Abstract

We present a new publicly available dataset with the goal of advancing multi-modality learning by offering vision and language data within the same context. This is achieved by obtaining data from a social media

multi-modality learning vision and language data image captioning sentiment analysis pre-trained models

发现论文，激发创造

借用人类感官：面向社交媒体多模态分类的评论感知自我训练

本研究提出了一种利用用户评论建模和自监督学习的方法，用于在社交媒体上进行图像文字关系分类、讽刺检测、情感分类和仇恨言论检测等多模态分类任务，结果表明该方法进一步提高了先前最先进模型的性能。

Mar, 2023

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

3MASSIV：社交媒体短视频的多语言、多模态和多层面数据集

3MASSIV 是一个多语言、多模态、多方面的专家标注数据集，由来自 Moj 短视频社交媒体平台的多样化短视频和 11 种不同语言的 100K 未标注视频组成，通过其独特的音频和视觉格式表达了流行的短视频趋势，介绍了 3MASSIV 并分析了其与强基线下其他现代流行数据集的不同之处，并展示了如何使用 3MASSIV 的社交媒体内容在语义理解任务和跨语言分析中应用。

Mar, 2022

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

创建图像和文本混合数据集以研究辱骂语言

使用 CREENDER 开发了一个注释工具，用于创建图像和滥用评论的多模态数据集，该数据集在不同角度被分析，发现图像中是否存在人会增加触发攻击性评论的概率。

May, 2020

社交媒体新闻帖子中的多模态语义不一致检测

本研究提出了一种用于识别社交媒体新闻帖子中视频外观和文本标题之间语义不一致的分类架构，通过使用基于文本分析、自动音频转录、语义视频分析、对象检测、命名实体一致性和面部验证的多模态融合框架来发现社交媒体帖子中的视频和标题之间的不匹配。通过训练和测试基于 4,000 个 Facebook 新闻帖子的新视频数据集，我们的多模态方法在随机标题和外观不匹配的情况下实现了 60.5％的分类准确性，而单模分别准确率不到 50％。进一步的消融研究证实了跨模态融合对于正确识别语义不一致性的必要性。

May, 2021

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

MultiSum：用于视频的多模式摘要和缩略图生成的数据集

通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。

Jun, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023