利用相对查询进行 Oracle 引导图像合成

Apr, 2022

利用相对查询进行 Oracle 引导图像合成

Oracle Guided Image Synthesis with Relative Queries

Alec Helbling, Christopher John Rozell, Matthew O'Shaughnessy, Kion Fallah

TL;DR通过一系列的相关问题，使用 Conditional VAE 的方法分离和控制生成模型输出的特定特征，以实现用户愿景中所设想的图像，并开发了建模图像预测中不确定性的技术使得该框架可以适应训练集包含噪声的情形。

Abstract

Isolating and controlling specific features in the outputs of generative models in a user-friendly way is a difficult and open-ended problem. We develop techniques that allow an oracle user to generate an image they are envisioning in their head by answering a sequence of relative queries

generative models conditional vae latent space uncertainty modeling relative queries

发现论文，激发创造

PrefGen: 使用相对属性指导偏好的图像生成

通过比较用户的选择，本文提出了一种基于偏好的图像生成、编辑方法，并成功运用于人脸编辑任务中。

Apr, 2023

贝叶斯表示学习与 Oracle 约束

提出一种将生成式无监督特征学习与概率上的三元组信息处理相结合的方法，将隐式的 oracle 知识转移为显式的非线性贝叶斯潜在因子模型，并证明该方法在学习表示方面优于以前的度量学习方法和没有此类副信息的生成模型。

Jun, 2015

针对 VQA 的问题条件反事实图像生成

通过学习生成对抗性图片对视觉问答模型进行解释，从而使得人们可以理解其内部机制。

Nov, 2019

自回归图像生成与集成量化

本文提出了一个基于深度生成模型的图像生成网络，结合卷积神经网络的归纳偏置和自回归的序列建模，通过多重领域特征的变量规范，设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差，取得了当前同类算法中最优秀的生成表现。

Jul, 2022

信息最大化的视觉问题生成

本文提出了一种模型，通过最大化图像、期望回答和生成的问题之间的互信息，引入可变连续潜在空间来解决自然语言离散标记的无法计算问题，并通过第二潜在空间实现类似回答聚类，实现目标驱动的提取物体、属性、颜色、材质等信息，并在实测中实现获取之前未见过的视觉概念的目标。

Mar, 2019

通过图变分自编码器生成真实的合成关系数据

利用变分自动编码器框架和图神经网络生成真实的综合关系数据库。

Nov, 2022

利用语义耦合的 VQ 模型进行语义图像合成

通过与向量量化模型预训练的条件式合成潜空间，联合学习条件潜空间和图像潜空间，进一步提高自回归模型的建模能力，并在多个图像数据集上验证其能有效改进语义图像合成性能。

Sep, 2022

可控的图像生成与组合的并行标记预测

通过组合离散生成模型的对数概率输出，我们提出了一种可控条件图像生成的公式，该方法在 FFHQ、Positional CLEVR 和 Relational CLEVR 三个不同场景中实现了最先进的生成准确性，并达到了竞争性的 Fréchet Inception Distance (FID) 得分，平均生成准确性为 80.71％，平均 FID 为 24.23，与其他方法相比具有 2.3 倍至 12 倍的速度优势，并提供了可解释的控制性维度以及对文本 - 图像生成的精细控制能力。

May, 2024

视觉好奇心：学习提问以学习视觉识别

本文提出了一种基于视觉好奇心的智能代理，通过与 Oracle 的对话，实现在开放世界环境下识别物体和属性，使用强化学习作为框架学习角色的所有组件和模块，并通过独立于视觉和特定环境的问策略，在学习了新的视觉概念后，成功运用于新领域。

Oct, 2018

iVQA: 反向视觉问答

本文提出了逆向视觉问答（iVQA）问题，并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型，可以逐渐调整其注意力焦点，以便更好地理解给定的图像。实验结果表明，我们的模型可以生成多样性、语法正确且内容相关的问题，与给定的答案相匹配。

Oct, 2017