借用人类感官：面向社交媒体多模态分类的评论感知自我训练

EMNLPMar, 2023

借用人类感官：面向社交媒体多模态分类的评论感知自我训练

Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification

Chunpu Xu, Jing Li

TL;DR本研究提出了一种利用用户评论建模和自监督学习的方法，用于在社交媒体上进行图像文字关系分类、讽刺检测、情感分类和仇恨言论检测等多模态分类任务，结果表明该方法进一步提高了先前最先进模型的性能。

Abstract

social media is daily creating massive multimedia content with paired image and text, presenting the pressing need to automate the vision and language understanding for various →

social media multimedia content image-text relationships self-training multimodal classification

发现论文，激发创造

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019

多模态分类分析社交媒体

本研究使用池化层和辅助学习任务进行多模态社交媒体数据分类，具有良好的鲁棒性和高准确性，并与传统融合方法相比有着显著的优势。

Aug, 2017

多媒体社交分析的数据集和基准测试

该论文介绍了一个通过从社交媒体网站获取包含多个成对图像 / 视频和文本的帖子以及包含图像 / 视频和 / 或文本的评论树来实现多模态学习的新的可公开获取的数据集，并提供了基线性能分析，适用于图像字幕、情感分析和预训练模型等多项任务。

Jun, 2020

SemEval-2020 任务 8：情感分析 -- 视觉语言隐喻！

该研究针对社交媒体上流行的多模式互联网模因进行情感分析，人工标注了约 10,000 条模因标签，并涵盖情感和情感类型（讽刺，有趣，冒犯，积极影响）及其相应的强度，三项任务中分别取得了 F1 得分的最佳表现分别为 0.35、0.51 和 0.32。

Aug, 2020

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

通过利用图文辅助任务提升社交媒体帖子的多模态分类

利用社交媒体帖子中的多模态信息，通过引入辅助损失与主任务相结合的方式，成功解决了文本和图像信息融合中的挑战，取得了一致的改进效果，并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。

Sep, 2023

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

理解语言空间中社交媒体的跨模态话语

本文研究了文本和图像相结合在社交媒体中的多媒体传播方式，提出了交叉模态话语的新概念，通过五个标签来表述图像和文本之间的关联，验证了通过多头注意力与字幕的多媒体编码器能够达到最先进的结果。

Feb, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023