基于能量的潜空间的生成视觉 Transformer 用于显著性预测

Dec, 2021

基于能量的潜空间的生成视觉 Transformer 用于显著性预测

Learning Generative Vision Transformer with Energy-Based Latent Space for Saliency Prediction

Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li

TL;DR提出了一种基于生成式视觉 transformer 的显著目标检测方法，使用了具有信息能量的先验模型，通过 MCMC 最大似然估计的方法训练视觉 transformer 网络和先验模型，并结合 RGB 和 RGB-D 两种数据进行大量实验，选取更有表现力的能量信息先验，得到了更为准确和人类感知一致的显著性预测和像素级的不确定性地图。

Abstract

Vision transformer networks have shown superiority in many computer vision tasks. In this paper, we take a step further by proposing a novel generative vision transformer with latent variables following an informative energy-based prior for →

generative vision transformer salient object detection markov chain monte carlo latent variables uncertainty map

发现论文，激发创造

学习潜空间能量先验模型

通过在生成模型的潜在空间中学习基于能量的模型（EBM），从而使 EBM 成为先验模型，该模型建立在生成模型的自上而下网络之上。通过最大似然联合学习，可以同时学习潜在空间的 EBM 和自上而下网络，并涉及从潜在向量的先验和后验分布中进行短程 MCMC 采样。由于潜在空间的低维度和自上而下网络的表现力，简单的潜在空间 EBM 可以有效地捕捉数据中的规律，并且潜在空间中的 MCMC 采样效率高且混合良好，表现出良好的图像和文本生成和异常检测能力。

Jun, 2020

多层生成器学习联合潜空间 EBM 先验模型

本文提出了一种基于能量的模型 (EBM) 方法，通过在所有层的潜在变量上建立联合潜在空间 EBM 先验模型，以层内能量项捕捉每一层的内部上下文关系，跨不同层的潜在变量则通过联合校正。并提出联合训练方案 (最大似然估计 MLE 和基于推理模型的变分训练方案)，使得学到的模型可以在生成高质量图像和捕捉分层特征方面具有表现力和更好的异常检测效果。

Jun, 2023

使用联合潜在空间能量先验学习层次特征

本文研究多层生成模型在学习分层表示中的基本问题，并提出了一种联合潜在空间的基于能量的模型，通过多层潜在变量实现了有效的分层表示学习，并对数据分布建模。

Oct, 2023

基于不确定性启发的 RGB-D 显著性检测

本文提出了一种基于不确定性的随机框架，通过学习数据标记过程实现 RGB-D 显著性检测，通过引入一个潜在变量来建模标记变化，包括一个生成器模型和一个推理模型，并采用条件变分自动编码器和交替反向传播技术来推断潜在变量。在六个挑战性的 RGB-D 基准数据集上，实验表明我们的方法在学习显著性图分布方面具有优异性能。

Sep, 2020

文本生成和分类的符号向量耦合潜空间能量模型

该研究提出了一种基于潜空间的能量先验模型，用于文本生成和分类，通过潜空间耦合能够在无监督或半监督的情况下提高信息的提取，并且在实验中表现出高质量、多样性和可解释性的生成文本以及有效分类。

Aug, 2021

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

潜在视频变换器

本文提出了一种使用潜在空间进行视频生成的方法，采用自回归技术预测未来帧的潜在表示，经实验证明其相较于以前的方法在减少计算资源需求的同时，生成质量也得到了保证。

Jun, 2020

VisorGPT：通过生成预训练学习视觉先验

本文旨在学习视觉先验，并通过生成预训练学习 Visual prior，以最大化可能性建模对象位置和形状等先验信息，进而能够在许多视觉任务中应用。实验结果表明，可用于多种视觉任务，例如控制网络中的条件图像合成模型，并提供代码供参考。

May, 2023

用对比学习的方法训练变分自编码器先验

针对变分自编码器的先验洞问题，我们提出了一种能源化先验，通过基础先验分布和重新加权因子的乘积来定义，以使基础先验更接近集体后验，并通过噪声对比估计来训练重新加权因子，实验证明此方法可以大幅提高 MNIST、CIFAR-10、CelebA 64 和 CelebA HQ 256 数据集上的最先进 VAE 的生成性能。

Oct, 2020