利用相对查询进行 Oracle 引导图像合成
提出一种将生成式无监督特征学习与概率上的三元组信息处理相结合的方法,将隐式的 oracle 知识转移为显式的非线性贝叶斯潜在因子模型,并证明该方法在学习表示方面优于以前的度量学习方法和没有此类副信息的生成模型。
Jun, 2015
本文提出了一个基于深度生成模型的图像生成网络,结合卷积神经网络的归纳偏置和自回归的序列建模,通过多重领域特征的变量规范,设计了分布估计的 Gumbel 采样策略来提高图像的生成质量并克服于训练和推理过程中所产生的偏差和误差,取得了当前同类算法中最优秀的生成表现。
Jul, 2022
本文提出了一种模型,通过最大化图像、期望回答和生成的问题之间的互信息,引入可变连续潜在空间来解决自然语言离散标记的无法计算问题,并通过第二潜在空间实现类似回答聚类,实现目标驱动的提取物体、属性、颜色、材质等信息,并在实测中实现获取之前未见过的视觉概念的目标。
Mar, 2019
通过与向量量化模型预训练的条件式合成潜空间,联合学习条件潜空间和图像潜空间,进一步提高自回归模型的建模能力,并在多个图像数据集上验证其能有效改进语义图像合成性能。
Sep, 2022
通过组合离散生成模型的对数概率输出,我们提出了一种可控条件图像生成的公式,该方法在 FFHQ、Positional CLEVR 和 Relational CLEVR 三个不同场景中实现了最先进的生成准确性,并达到了竞争性的 Fréchet Inception Distance (FID) 得分,平均生成准确性为 80.71%,平均 FID 为 24.23,与其他方法相比具有 2.3 倍至 12 倍的速度优势,并提供了可解释的控制性维度以及对文本 - 图像生成的精细控制能力。
May, 2024
本文提出了一种基于视觉好奇心的智能代理,通过与 Oracle 的对话,实现在开放世界环境下识别物体和属性,使用强化学习作为框架学习角色的所有组件和模块,并通过独立于视觉和特定环境的问策略,在学习了新的视觉概念后,成功运用于新领域。
Oct, 2018
本文提出了逆向视觉问答(iVQA)问题,并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型,可以逐渐调整其注意力焦点,以便更好地理解给定的图像。实验结果表明,我们的模型可以生成多样性、语法正确且内容相关的问题,与给定的答案相匹配。
Oct, 2017