程序引导的图像操作器
本论文提出了一种新的机器人学习框架——神经任务规划(NTP),实现从任务输入到分解、再到完成的过程,在机器人操纵任务中实现强泛化,展现出层次性和组合性的结构,同时对于长度增加、目标变化的未知任务也具备较强的泛化能力。
Oct, 2017
本论文提出了能够通过自然语言指令生成目标图像的交互式图像处理系统,使用了神经网络处理潜在空间中的图像向量将源向量转换为目标向量,成功地在我们的数据集中利用源图像和操作指令生成目标图像,从而实现更可控、更实用的自然语言条件下的图像生成。
Feb, 2018
本文介绍了一种新的基于综合的批量图像处理方法,通过利用预训练神经网络和其他语言构造使得对象级别的编辑成为可能,并提出了一种neuro-symbolic DSL语言,该方法能够自动学习这种语言,并在该方法的工具ImageEye上进行实现并评估,结果显示ImageEye能够自动完成96%的图像编辑任务。
Apr, 2023
本篇研究提出一种名为NeuroSIM的系统,使用基于领域特定语言(DSL)的符号程序将自然语言文本转化为图像操作,实现多模态空间的复杂推理,仅需要视觉问题回答(VQA)的标注数据即可。实验证明,该系统在图像操作方面表现出与已有的监督式数据基准相媲美或胜过的结果。
May, 2023
本文提出了一种名为ImageBrush的新型操作方法,通过学习视觉指示来实现更准确的图像编辑,其中关键思想是利用一对转换图像作为视觉指示来准确捕捉人类意图并在现实场景中实现可访问性。通过将视觉指示的学习形式化为基于扩散填充的图像修复问题,我们的方法可以从仅包含视觉演示的新图像中完全提取出底层意图,并展现了在姿势转移、图像翻译和视频修复等各种后续任务中的强大泛化能力。
Aug, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。
Dec, 2023
我们引入了新颖的扩散可视化编程器 (DVP),这是一个神经符号图像转换框架。我们提出的 DVP 在 GPT 架构中无缝嵌入了一个条件灵活的扩散模型,为各种符号步骤(包括 RoI 识别、风格转换和位置操作)提供一致的视觉程序序列,实现透明和可控的图像转换过程。大量实验证明了 DVP 的卓越性能,超过了当前艺术的表现。其中 DVP 的几个关键功能是:通过实例标准化实现条件灵活的翻译,使模型消除了手动引导导致的敏感性,并始终专注于用于高质量内容生成的文本描述;框架通过将特征空间中的复杂高维概念解读为更易理解的低维符号(如 [Prompt]、[RoI object])来增强上下文推理能力,从而实现了局部的、无上下文的编辑和整体的一致性维护;最后,DVP 在每个编程阶段提供明确的符号表示,提高了系统的可控性和可解释性,使用户能够直观地解释和修改结果。我们的研究在将人工图像翻译过程与认知智能相协调方面迈出了重要的一步,具有广泛的应用前景。
Jan, 2024
通过使用预训练图像表示编码器和视觉转换器,Scene Objects From Transformers (SOFT) 构建了一个对象中心化嵌入,无需进一步训练即可优化机器人的操作任务。
May, 2024