程序引导的图像操作器

Sep, 2019

Program-Guided Image Manipulators

Jiayuan Mao, Xiuming Zhang, Yikai Li, William T. Freeman, Joshua B. Tenenbaum...

TL;DR该文介绍了一种称为PG-IM的程序指导图像操作者，它采用类似于神经符号程序的表示来表示和操作图像，并在单个图像上训练，从中探索其内部统计。PG-IM在统一框架中实现了外推和规则编辑。大量实验表明，PG-IM在所有任务上都实现了卓越的性能。

Abstract

Humans are capable of building holistic representations for images at various levels, from local objects, to pairwise relations, to global structures. The interpretation of structures involves reasoning over repetition and symmetry of the objects in the image. In this paper, we present the pr

发现论文，激发创造

神经任务编程：跨层次任务学习泛化

本论文提出了一种新的机器人学习框架——神经任务规划（NTP），实现从任务输入到分解、再到完成的过程，在机器人操纵任务中实现强泛化，展现出层次性和组合性的结构，同时对于长度增加、目标变化的未知任务也具备较强的泛化能力。

Oct, 2017

自然语言指令命令下的交互式图像操作

本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统，使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量，成功地在我们的数据集中利用源图像和操作指令生成目标图像，从而实现更可控、更实用的自然语言条件下的图像生成。

Feb, 2018

学习神经符号程序用于语言引导机器人操控

通过一种模块化结构，使用符号推理构造深度物体中心推理模型，从而训练出一种可以执行机器人操作的模型，此模型具有优秀的通用性和端到端的可训练性。

Nov, 2022

使用程序合成的批量图像处理(ImageEye)

本文介绍了一种新的基于综合的批量图像处理方法，通过利用预训练神经网络和其他语言构造使得对象级别的编辑成为可能，并提出了一种neuro-symbolic DSL语言，该方法能够自动学习这种语言，并在该方法的工具ImageEye上进行实现并评估，结果显示ImageEye能够自动完成96%的图像编辑任务。

Apr, 2023

基于程序的、组合通用的机器人操作

通过提出一种利用语言指令的可执行程序来更好地利用预训练的VL模型的模块化方法，我们可以改善在任务和物体未知情况下的运用和组合泛化能力。

Apr, 2023

通过多跳指令进行图像操作--新数据集和弱监督的神经符号化方法

本篇研究提出一种名为NeuroSIM的系统，使用基于领域特定语言(DSL)的符号程序将自然语言文本转化为图像操作，实现多模态空间的复杂推理，仅需要视觉问题回答（VQA）的标注数据即可。实验证明，该系统在图像操作方面表现出与已有的监督式数据基准相媲美或胜过的结果。

May, 2023

ImageBrush：学习基于示例的图像操纵的视觉上下文指导

本文提出了一种名为ImageBrush的新型操作方法，通过学习视觉指示来实现更准确的图像编辑，其中关键思想是利用一对转换图像作为视觉指示来准确捕捉人类意图并在现实场景中实现可访问性。通过将视觉指示的学习形式化为基于扩散填充的图像修复问题，我们的方法可以从仅包含视觉演示的新图像中完全提取出底层意图，并展现了在姿势转移、图像翻译和视频修复等各种后续任务中的强大泛化能力。

Aug, 2023

大规模视频生成预训练在视觉机器人操作中的应用

通过大规模视频生成预训练，我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展，提供了新的证据，显示出在多任务视觉机器人操作中，经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。

Dec, 2023

图像翻译为扩散视觉编程

我们引入了新颖的扩散可视化编程器 (DVP)，这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型，为各种符号步骤（包括 RoI 识别、风格转换和位置操作）提供一致的视觉程序序列，实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能，超过了当前艺术的表现。其中 DVP 的几个关键功能是：通过实例标准化实现条件灵活的翻译，使模型消除了手动引导导致的敏感性，并始终专注于用于高质量内容生成的文本描述；框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号（如 [Prompt]、[RoI object]）来增强上下文推理能力，从而实现了局部的、无上下文的编辑和整体的一致性维护；最后，DVP 在每个编程阶段提供明确的符号表示，提高了系统的可控性和可解释性，使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步，具有广泛的应用前景。

Jan, 2024

将通用预训练的视觉Transformer重新塑造为面向对象的场景编码器，用于操作策略

通过使用预训练图像表示编码器和视觉转换器，Scene Objects From Transformers (SOFT) 构建了一个对象中心化嵌入，无需进一步训练即可优化机器人的操作任务。

May, 2024