MemeCap: 用于字幕和解释 Memes 的数据集
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
Mar, 2020
我们介绍了一项新的视觉 - 语言(VL)任务,描述视频中的隐喻,并提出了一个低资源视频隐喻字幕系统(GIT-LLaVA),该系统在所提出的任务上获得了与现有技术相媲美的性能。
Jun, 2024
使用 Probing-Based Captioning 方法,通过向一个冻结的 PVLM 提问来生成图像标题,以解决令人讨厌的模因检测任务中的非信息性图像标题的问题,该方法在三个基准测试上验证了其有效性和泛化性。
Aug, 2023
通过 Reddit 收集了超过 1200 万个图像和文本对,构建了一个大规模的数据集,帮助机器学习模型学习生成富有多样性的图像描述并学习转换到许多下游任务,而无需使用复杂的筛选流程来保持数据质量。
Nov, 2021
我们介绍了一种基于 GPT-4 生成字幕的方法,通过 fine-tune RoBERTa 作为文本编码器和 CLIP 作为图像编码器,改进了以文本和图像为基础的表意编码,取得了明显的性能提升。
Apr, 2024
该研究针对社交媒体上流行的多模式互联网模因进行情感分析,人工标注了约 10,000 条模因标签,并涵盖情感和情感类型(讽刺,有趣,冒犯,积极影响)及其相应的强度,三项任务中分别取得了 F1 得分的最佳表现分别为 0.35、0.51 和 0.32。
Aug, 2020
本文介绍了一种利用图像字幕工具引入自动字幕以模拟图像内容和遮盖文本间的对比,在处理讨论是否具有仇恨色彩的 “违反社交规范” 的表情包挑战中,可以改进单模型和多模型。同时,在处理单模型中,继续在增强和原始字幕对上进行预训练,对于分类准确性有很大的益处。
Sep, 2021
本文提出了一种使用场景图和知识图作为结构化表示对旨在进行模因分类的 Transformer-based 模型的方法,并与 ImgBERT 模型进行了比较,发现使用场景图和知识图的方法能够获得一致的性能提升,自动生成的图表现出更好的针对 meme 的恶意分类性能。
May, 2023
通过结合语言模型与音乐编码的 MidiCaps 数据集,该研究旨在推动生成模型在文本到 MIDI 的领域的发展,并促进音乐信息检索和自然语言处理交叉领域的进展。
Jun, 2024
本研究介绍了一种新颖的模因生成系统,该系统可根据给定的任何图像产生幽默而相关的字幕,并且还可以被调节到用户自定义的与模板相关的标签。系统使用预训练的 Inception-v3 网络返回进行字幕生成的图像嵌入,通过基于注意力机制的深度 LSTM 模型实现生成 - 这受到广泛认可的 Show and Tell 模型的启发。研究人员通过困惑度和人工评估对模型进行了质量评估,包括所生成的模因的质量和其与真正的模因的区别。结果表明,我们的模型可以生成与真实模因在整体上无法区分的原创模因。
Jun, 2018