看見看不見的：視覺隱喻對視頻進行標註

Jun, 2024

看見看不見的：視覺隱喻對視頻進行標註

Seeing the Unseen: Visual Metaphor Captioning for Videos

Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Sumit Shekhar

TL;DR我们介绍了一项新的视觉 - 语言（VL）任务，描述视频中的隐喻，并提出了一个低资源视频隐喻字幕系统（GIT-LLaVA），该系统在所提出的任务上获得了与现有技术相媲美的性能。

Abstract

metaphors are a common communication tool used in our day-to-day life. The detection and generation of metaphors in textual form have been studied extensively but →

metaphors vision-language models videos captions video metaphor captioning

发现论文，激发创造

我发现一个隐喻：大型语言模型和扩散模型共同创造视觉隐喻

本研究提出一种使用大型语言模型（LLM）与扩散模型的人工智能协作框架，旨在从语言隐喻中生成视觉隐喻，以便于传达含蓄含义并进行陈述。经过插图师的评估证明，这种协作模型的前景看好。

May, 2023

MetaCLUE: 全面的视觉隐喻研究

本文介绍了 MetaCLUE—— 一组用于视觉隐喻的视觉任务，以及收集的高质量且丰富的比喻注释数据集，并对基于注释的最先进视觉和语言模型进行了全面的分析，重点介绍了当前方法在视觉隐喻分类、定位、理解和生成方面的优势和弱点，旨在为开发具有类人创造力的 AI 系统迈出具体的一步。

Dec, 2022

MemeCap: 用于字幕和解释 Memes 的数据集

该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验，验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。

May, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

IRFL：修辞语言的图像识别

本研究提出了 “形象化语言图像识别” 数据集，探讨了视觉和语言模型理解多模态形象化语言的难点，并借助基准任务和基线模型初步研究了这一问题。结果表明，所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。

Mar, 2023

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

视觉语言模型的文化意识程度如何？

我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能，并提出了一个新的评估指标，即文化意识分数（CAS）。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k，其中包含了具有文化背景和上下文的图像，以及一个带有分配的文化意识分数的数据集，可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值，对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数，促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。

May, 2024

V-FLUTE: 视觉比喻语言理解与文本解释

使用视觉和语言模型进行图像和文字的理解，探索其在理解比喻和幽默等比喻现象方面的能力，并提出了一个新的任务和数据集，Visual Figurative Language Understanding with Textual Explanations（V-FLUTE）。

May, 2024

概念映射的隐喻生成

本研究旨在基于概念隐喻理论通过控制生成过程并使用两种方法 (词汇级和序列生成模型) 生成有意义的隐喻表达。经过自动化和人工评估，实验结果表明，无监督的 CM-Lex 模型与最新的深度学习隐喻生成系统具有竞争力；而 CM-BART 优于其他所有模型。

Jun, 2021

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024