递归视觉编程
VISPROG 是一种神经符号方法,用于解决复杂和组合的视觉任务,所需的仅是自然语言指令,通过生成类似 Python 的模块化程序来实现,每行程序可以调用各种计算机视觉模型,图像处理算法或 Python 函数以产生中间输出,展示了其在 4 个不同的任务上的灵活性 。
Nov, 2022
本文提出了一种名为 Recursive Visual Attention (RvA) 的新型注意力机制,用于解决视觉对话中的视觉协同参考问题,并在大规模的 VisDial v0.9 和 v1.0 数据集上进行了实验,结果表明 RvA 不仅超越了现有技术,而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。
Dec, 2018
本文提出了一个基于会话的视觉问答框架,包括三个组件:问话者,Oracle 和答案者,其中 ACVRM 用于答案者。通过对过程进行模拟,作者对每个问题建立了一个 SQS 来进行监督学习,实验结果表明这种方法在 VQA-CP v2 上实现了最新颖的性能。
Apr, 2022
本研究提出了一种新的概率神经符号模型,其拥有作为潜在随机变量的符号功能程序,并在视觉问题回答的背景下实例化,相比之前的神经符号模型,我们的模型提供了两个关键概念上的优势,第一,我们的模型生成的程序更易理解,需要较少的教学示例; 第二,我们展示了我们可以向该模型提出反事实情景,来探究其对于给定图像可以导致特定答案的程序的信念,我们对 CLEVR 和 SHAPES 数据集的结果验证了我们的假设,在低数据情况下,模型具有更好的方案(和答案)预测准确性,并允许人们探究所执行推理的连贯性和一致性。
Feb, 2019
我们提出了一种基于神经符号的可视化问题回答管道,可以使用 ASP 求解程序对 CLEVR 问题的计算答案,并证明了使用合理选择规则的非确定性场景编码相对于相关神经符号方法具有更高的准确性和更高的效率。
May, 2022
以視覺提示(VP)作為研究對象,本文提出了 AutoVP 框架,用於自動化 VP 設計選擇,同時評估其性能。通過對 12 個下游圖像分類任務進行綜合性能評估,實驗結果顯示 AutoVP 優於當前已知 VP 方法,並提供了高達 6.7%的準確率改進和最高 27.5%的性能增益。
Oct, 2023
本文针对视觉问答任务进行综述,比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估,结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向,重点关注结构化知识库和自然语言处理模型的连接。
Jul, 2016
本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen 将 T2I 生成拆分成三个步骤,使用 LM 控制前两个步骤,并提供更强的空间控制;VPEval 是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023