ViPE:可视化几乎一切
本研究提出一种使用大型语言模型(LLM)与扩散模型的人工智能协作框架,旨在从语言隐喻中生成视觉隐喻,以便于传达含蓄含义并进行陈述。经过插图师的评估证明,这种协作模型的前景看好。
May, 2023
本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen 将 T2I 生成拆分成三个步骤,使用 LM 控制前两个步骤,并提供更强的空间控制;VPEval 是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
本研究提出了一项挑战性任务 VEIT(Visual Emotion Interpretation Task),并通过专业注释的心理理论支持数据集 SpyIn 进行了实验。研究表明,VEIT 是一项需要场景图信息和心理知识的更具挑战性的任务,并且有望通过视觉创作分析和解释人类内在世界。
Feb, 2023
本文提出了一种新的任务 iParaphrasing,通过提取基于视觉的复述词(VGPs)来改善语言和图像多模态任务的性能,使用各种现有方法和基于神经网络的图像注意力方法建模 VGPs 之间的相似性并报告了结果。
Jun, 2018
通过模拟人类认知过程,我们提出了一种新的自动化的视觉概念评估方法(ViCE),用于评估生成 / 编辑的图像与相应提示 / 说明之间的一致性,并为图像评分。虽然这种模拟人类在图像评估过程中的新假设正处于初步评估阶段,但结果令人鼓舞,并为一种新形式的自动评估打开了大门,这将在图像生成或图像目标编辑任务变得越来越复杂时产生重要影响。
Jul, 2023
使用视觉和语言模型进行图像和文字的理解,探索其在理解比喻和幽默等比喻现象方面的能力,并提出了一个新的任务和数据集,Visual Figurative Language Understanding with Textual Explanations(V-FLUTE)。
May, 2024
该研究提出了一种新的预训练框架用于人物表征学习,名为 PLIP,其中包括三个预文本任务:图像着色、属性预测和视觉 - 语言匹配,在一个新的大规模人物数据集 SYNTH-PEDES 上对其进行了评估并取得了优于先前方法的效果。
May, 2023
我们引入了新颖的扩散可视化编程器 (DVP),这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型,为各种符号步骤(包括 RoI 识别、风格转换和位置操作)提供一致的视觉程序序列,实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能,超过了当前艺术的表现。其中 DVP 的几个关键功能是:通过实例标准化实现条件灵活的翻译,使模型消除了手动引导导致的敏感性,并始终专注于用于高质量内容生成的文本描述;框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号(如 [Prompt]、[RoI object])来增强上下文推理能力,从而实现了局部的、无上下文的编辑和整体的一致性维护;最后,DVP 在每个编程阶段提供明确的符号表示,提高了系统的可控性和可解释性,使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步,具有广泛的应用前景。
Jan, 2024
本文介绍了一项新的推理任务 - 视觉蕴含(Visual Entailment,VE),VE 与传统的文本蕴含(Textual Entailment,TE)任务不同,它的前提是由图像定义的,而不是像 TE 任务中那样由自然语言句子定义的。在 Stanford 自然语言推理语料库和 Flickr30k 的基础上,提出了一个新的数据集 SNLI-VE,并介绍了一种可解释的视觉蕴含模型(EVE)来解决 VE 问题。此外,本文还将 EVE 和其他几种最先进的基于视觉问答(VQA)的模型在 SNLI-VE 数据集上进行了评估,促进了基于语境的语言理解,并提供了关于现代 VQA 模型性能的见识。
Nov, 2018
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021