看見看不見的:視覺隱喻對視頻進行標註
本研究提出一种使用大型语言模型(LLM)与扩散模型的人工智能协作框架,旨在从语言隐喻中生成视觉隐喻,以便于传达含蓄含义并进行陈述。经过插图师的评估证明,这种协作模型的前景看好。
May, 2023
本文介绍了 MetaCLUE—— 一组用于视觉隐喻的视觉任务,以及收集的高质量且丰富的比喻注释数据集,并对基于注释的最先进视觉和语言模型进行了全面的分析,重点介绍了当前方法在视觉隐喻分类、定位、理解和生成方面的优势和弱点,旨在为开发具有类人创造力的 AI 系统迈出具体的一步。
Dec, 2022
该研究介绍了一个新的数据集 MemeCap 及可视化模型综合能力的实验,验证了 VL 模型在理解 meme 中的视觉隐喻方面存在的问题。
May, 2023
本研究提出了 “形象化语言图像识别” 数据集,探讨了视觉和语言模型理解多模态形象化语言的难点,并借助基准任务和基线模型初步研究了这一问题。结果表明,所有的模型在多模态形象化语言理解上都不如人类。该数据集和基准任务将促进模型更好地理解形象化语言。
Mar, 2023
我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能,并提出了一个新的评估指标,即文化意识分数(CAS)。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k,其中包含了具有文化背景和上下文的图像,以及一个带有分配的文化意识分数的数据集,可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值,对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数,促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。
May, 2024
使用视觉和语言模型进行图像和文字的理解,探索其在理解比喻和幽默等比喻现象方面的能力,并提出了一个新的任务和数据集,Visual Figurative Language Understanding with Textual Explanations(V-FLUTE)。
May, 2024
本研究旨在基于概念隐喻理论通过控制生成过程并使用两种方法 (词汇级和序列生成模型) 生成有意义的隐喻表达。经过自动化和人工评估,实验结果表明,无监督的 CM-Lex 模型与最新的深度学习隐喻生成系统具有竞争力;而 CM-BART 优于其他所有模型。
Jun, 2021
通过提取和组织图像的详细内容,包括物体、属性和关系,我们的方法将人类编写的参考文本替换为视觉上下文,并帮助视觉语言模型更好地理解图像,从而提高图像标题评估性能,并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标,并且在与人类判断方面呈现出卓越的一致性。
Feb, 2024