借用人类感官:面向社交媒体多模态分类的评论感知自我训练
通过利用 Web 和 Social Media 数据,本文提出一种利用多模态图像和文本嵌入的自监督学习方法,在不需要人工注释的情况下学习强大的特征,并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法,表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能,且在训练目标数据时优于最先进方法。最后,介绍了 InstaCities1M 数据集,并演示了如何利用该数据集进行语义多模态图像检索。
Jan, 2019
该论文介绍了一个通过从社交媒体网站获取包含多个成对图像 / 视频和文本的帖子以及包含图像 / 视频和 / 或文本的评论树来实现多模态学习的新的可公开获取的数据集,并提供了基线性能分析,适用于图像字幕、情感分析和预训练模型等多项任务。
Jun, 2020
该研究针对社交媒体上流行的多模式互联网模因进行情感分析,人工标注了约 10,000 条模因标签,并涵盖情感和情感类型(讽刺,有趣,冒犯,积极影响)及其相应的强度,三项任务中分别取得了 F1 得分的最佳表现分别为 0.35、0.51 和 0.32。
Aug, 2020
社交媒体是多模态信息交流的中心,包括文本、图片和视频,这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc,一个综合性基准,旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估,我们发现了重要的性能差异,突出了模型在社交理解能力方面的改进需求。
Feb, 2024
利用社交媒体帖子中的多模态信息,通过引入辅助损失与主任务相结合的方式,成功解决了文本和图像信息融合中的挑战,取得了一致的改进效果,并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。
Sep, 2023
本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入,旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明,利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入,并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时,我们在 MIRFlickr 数据集中明显优于现有技术。进一步,我们展示了如何使用学习到的嵌入执行语义多模态图像检索,超越了传统的实例级检索问题。最后,我们提出了一个新的数据集(InstaCities1M),由 Instagram 图像及其相关文本组成,可用于公平比较图像 - 文本嵌入方法。
Aug, 2018
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
Oct, 2022
本文研究了文本和图像相结合在社交媒体中的多媒体传播方式,提出了交叉模态话语的新概念,通过五个标签来表述图像和文本之间的关联,验证了通过多头注意力与字幕的多媒体编码器能够达到最先进的结果。
Feb, 2023
利用现有基准数据集对 GPT-4V 的五项任务进行定量分析,并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力,结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果,并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识,但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战,同时在涉及名人和政治家知识的持续发展背景下,会出现错误信息生成的倾向,这反映了已知的幻觉问题,研究结果表明,大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。
Nov, 2023