ViPE：可视化几乎一切

EMNLPOct, 2023

ViPE: Visualise Pretty-much Everything

Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch

TL;DR通过大规模的带有含糊视觉描述的歌词集合进行训练，ViPE 是一种轻量且强大的语言模型，能够将任意文本转化为可视化描述，并展示出对比人类专家更具鲁棒性的理解能力，为音乐视频和字幕生成等许多下游应用提供了强大的开源基础。

Abstract

figurative and non-literal expressions are profoundly integrated in human communication. Visualising such expressions allow us to convey our creative thoughts, and evoke nuanced emotions. Recent text-to-image models

figurative and non-literal expressions visualise text-to-image models language models vipe

发现论文，激发创造

我发现一个隐喻：大型语言模型和扩散模型共同创造视觉隐喻

本研究提出一种使用大型语言模型（LLM）与扩散模型的人工智能协作框架，旨在从语言隐喻中生成视觉隐喻，以便于传达含蓄含义并进行陈述。经过插图师的评估证明，这种协作模型的前景看好。

May, 2023

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen 将 T2I 生成拆分成三个步骤，使用 LM 控制前两个步骤，并提供更强的空间控制；VPEval 是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023

透过视觉作品看内心世界：心理状态解读

本研究提出了一项挑战性任务 VEIT（Visual Emotion Interpretation Task），并通过专业注释的心理理论支持数据集 SpyIn 进行了实验。研究表明，VEIT 是一项需要场景图信息和心理知识的更具挑战性的任务，并且有望通过视觉创作分析和解释人类内在世界。

Feb, 2023

iParaphrasing：通过图像提取基于视觉的复述句

本文提出了一种新的任务 iParaphrasing，通过提取基于视觉的复述词（VGPs）来改善语言和图像多模态任务的性能，使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。

Jun, 2018

ViCE！在图像生成评估中模仿人类的认知行为

通过模拟人类认知过程，我们提出了一种新的自动化的视觉概念评估方法（ViCE），用于评估生成 / 编辑的图像与相应提示 / 说明之间的一致性，并为图像评分。虽然这种模拟人类在图像评估过程中的新假设正处于初步评估阶段，但结果令人鼓舞，并为一种新形式的自动评估打开了大门，这将在图像生成或图像目标编辑任务变得越来越复杂时产生重要影响。

Jul, 2023

V-FLUTE: 视觉比喻语言理解与文本解释

使用视觉和语言模型进行图像和文字的理解，探索其在理解比喻和幽默等比喻现象方面的能力，并提出了一个新的任务和数据集，Visual Figurative Language Understanding with Textual Explanations（V-FLUTE）。

May, 2024

PLIP: 人物表示学习的语言图像预训练

该研究提出了一种新的预训练框架用于人物表征学习，名为 PLIP，其中包括三个预文本任务：图像着色、属性预测和视觉 - 语言匹配，在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。

May, 2023

图像翻译为扩散视觉编程

我们引入了新颖的扩散可视化编程器 (DVP)，这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型，为各种符号步骤（包括 RoI 识别、风格转换和位置操作）提供一致的视觉程序序列，实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能，超过了当前艺术的表现。其中 DVP 的几个关键功能是：通过实例标准化实现条件灵活的翻译，使模型消除了手动引导导致的敏感性，并始终专注于用于高质量内容生成的文本描述；框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号（如 [Prompt]、[RoI object]）来增强上下文推理能力，从而实现了局部的、无上下文的编辑和整体的一致性维护；最后，DVP 在每个编程阶段提供明确的符号表示，提高了系统的可控性和可解释性，使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步，具有广泛的应用前景。

Jan, 2024

基于视觉支持的语言学习的视觉蕴涵任务

本文介绍了一项新的推理任务 - 视觉蕴含（Visual Entailment，VE），VE 与传统的文本蕴含（Textual Entailment，TE）任务不同，它的前提是由图像定义的，而不是像 TE 任务中那样由自然语言句子定义的。在 Stanford 自然语言推理语料库和 Flickr30k 的基础上，提出了一个新的数据集 SNLI-VE，并介绍了一种可解释的视觉蕴含模型（EVE）来解决 VE 问题。此外，本文还将 EVE 和其他几种最先进的基于视觉问答（VQA）的模型在 SNLI-VE 数据集上进行了评估，促进了基于语境的语言理解，并提供了关于现代 VQA 模型性能的见识。

Nov, 2018

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021