递归视觉编程

Dec, 2023

Recursive Visual Programming

Jiaxin Ge, Sanjay Subramanian, Baifeng Shi, Roei Herzig, Trevor Darrell

TL;DR通过递归的视觉编程方法来应对编码解决视觉问答任务，简化生成的代码、提供更高效的问题解决能力以及更好管理复杂的数据结构，并通过广泛实验验证了该方法的有效性。

Abstract

visual programming (VP) has emerged as a powerful framework for Visual question answering (VQA). By generating and executing bespoke code for each question, these methods demonstrate impressive compositional and

visual programming question answering recursive visual programming coding practices vqa tasks

发现论文，激发创造

利用代码生成的模块化视觉问答

我们提出的框架将视觉问答问题视为模块化代码生成，并通过 Python 程序调用和组合视觉模型的输出来提高准确性。

Jun, 2023

视觉编程：无需训练的构成性视觉推理

VISPROG 是一种神经符号方法，用于解决复杂和组合的视觉任务，所需的仅是自然语言指令，通过生成类似 Python 的模块化程序来实现，每行程序可以调用各种计算机视觉模型，图像处理算法或 Python 函数以产生中间输出，展示了其在 4 个不同的任务上的灵活性。

Nov, 2022

递归视觉注意力在视觉对话中的应用

本文提出了一种名为 Recursive Visual Attention (RvA) 的新型注意力机制，用于解决视觉对话中的视觉协同参考问题，并在大规模的 VisDial v0.9 和 v1.0 数据集上进行了实验，结果表明 RvA 不仅超越了现有技术，而且在没有附加注释的情况下实现了合理的递归和可解释的注意力图。

Dec, 2018

Co-VQA: 交互子问题序列回答

本文提出了一个基于会话的视觉问答框架，包括三个组件：问话者，Oracle 和答案者，其中 ACVRM 用于答案者。通过对过程进行模拟，作者对每个问题建立了一个 SQS 来进行监督学习，实验结果表明这种方法在 VQA-CP v2 上实现了最新颖的性能。

Apr, 2022

可解释性视觉问答的概率神经符号模型

本研究提出了一种新的概率神经符号模型，其拥有作为潜在随机变量的符号功能程序，并在视觉问题回答的背景下实例化，相比之前的神经符号模型，我们的模型提供了两个关键概念上的优势，第一，我们的模型生成的程序更易理解，需要较少的教学示例；第二，我们展示了我们可以向该模型提出反事实情景，来探究其对于给定图像可以导致特定答案的程序的信念，我们对 CLEVR 和 SHAPES 数据集的结果验证了我们的假设，在低数据情况下，模型具有更好的方案（和答案）预测准确性，并允许人们探究所执行推理的连贯性和一致性。

Feb, 2019

神经符号 VQA: 从视觉和语言理解中分离推理

该论文介绍了神经符号视觉问答系统，结合深度表示学习和符号程序执行，具有更好的数据和内存效率以及对推理过程的全透明度。

Oct, 2018

一种神经符号 ASP 管道用于视觉问答

我们提出了一种基于神经符号的可视化问题回答管道，可以使用 ASP 求解程序对 CLEVR 问题的计算答案，并证明了使用合理选择规则的非确定性场景编码相对于相关神经符号方法具有更高的准确性和更高的效率。

May, 2022

AutoVP：自动视觉提示框架与基准

以視覺提示（VP）作為研究對象，本文提出了 AutoVP 框架，用於自動化 VP 設計選擇，同時評估其性能。通過對 12 個下游圖像分類任務進行綜合性能評估，實驗結果顯示 AutoVP 優於當前已知 VP 方法，並提供了高達 6.7％的準確率改進和最高 27.5％的性能增益。

Oct, 2023

视觉问答：方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合 Visual Genome 数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

文本到图像生成和评估的可视化编程

本文提出了两个基于语言模型的可解释 / 可解释的视觉编程框架，用于文本到图像的生成和评估。其中，VPGen 将 T2I 生成拆分成三个步骤，使用 LM 控制前两个步骤，并提供更强的空间控制；VPEval 是一个解释性和可解释性评估框架，基于视觉编程，能够提供针对技能特定和开放性提示的人类相关性评估。

May, 2023