并行顶点扩散用于统一的视觉定位

Mar, 2023

并行顶点扩散用于统一的视觉定位

Parallel Vertex Diffusion for Unified Visual Grounding

Zesen Cheng, Kehan Li, Peng Jin, Xiangyang Ji, Li Yuan...

TL;DR本文提出了一种并行顶点生成模型，采用扩散模型训练，并引入归一化坐标值和角度损失以解决训练的两个缺陷，实验结果显示该模型在物体检测和分割方面取得了最先进的性能。

Abstract

unified visual grounding pursues a simple and generic technical route to leverage multi-task data with less task-specific design. The most advanced methods typically present boxes and masks as vertex sequences to model

unified visual grounding vertex generation geometry consistency diffusion model referring detection

发现论文，激发创造

通过点 - 体素扩散生成和补全 3D 形状

本文提出了一种新颖的概率生成建模方法，称为 Point-Voxel Diffusion（PVD），它是一个统一的、概率的公式，用于无条件的形状生成和多模态形状完成。PVD 将降噪扩散模型与 3D 形状的混合点 - 体素表示相结合，并通过优化变分下界来训练（条件）似然函数。实验证明了 PVD 的高保真度合成能力，以及从单视角深度扫描的真实对象中生成多个完成结果的能力。

Apr, 2021

探索使用扩散模型的迭代细化来进行视频定位

DiffusionVG 是一个以扩散模型为基础的新框架，通过生成随机噪声输入逐步改进的逆向扩散过程，将视频定位作为一项条件生成任务，并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。

Oct, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

MVDD：多视角深度扩散模型

利用多视角深度，通过 MVDD 扩展扩散模型以生成高质量的 3D 形状，并通过增强视图之间的一致性及深度图对齐来提供卓越的 3D 形状生成和深度完成能力，以及作为下游任务的 3D 先验。

Dec, 2023

学习顶点下降：三维人体模型拟合的新方向

我们提出了一种新的基于优化的 3D 人体模型拟合范式，采用每个点的神经场网络进行训练，结合梯度下降优化管道实现对穿着衣服的人体的拟合。与现有的方法相比，这种方法能够捕获到具有非常不同身体形状的人的潜在身体，并在 3D 模型拟合中实现了显着改进。

May, 2022

GVDIFF：基于扩散模型的文本到视频生成

本研究提出了一种基于地面化文本到视频生成框架的 GVDIFF 方法，通过将地面化条件引入到自注意力机制中，以明确指导网络的关注点；引入空间 - 时间定位层，连接地面化条件与目标对象，使模型在空间 - 时间领域具有地面化生成能力；动态门网络适应性地跳过冗余地面化过程，有选择地提取地面化信息和语义，提高效率。对 GVDIFF 的地面化生成能力进行了广泛评估，并展示了其在长距离视频生成、顺序提示和对象特定编辑等应用中的多样性。

Jul, 2024

MVDiff: 可扩展灵活的多视图扩散用于从单视图进行 3D 物体重建

通过引入情景表示变换器和视图条件扩散模型，该论文提出了一个通用框架，用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性，该模型能够从仅一个图像输入生成超过基准方法在评估指标（包括 PSNR、SSIM 和 LPIPS）方面的三维网格。

May, 2024

基于点云到体素的知识蒸馏技术用于 LiDAR 语义分割

本文提出了一种基于点到体素知识蒸馏的方法，通过将隐藏层的知识从点级别和体素级别进行转移，采用困难感知的采样策略和点 - 体素相似度蒸馏，提高了 LiDAR 语义分割任务中教师模型向学生模型的知识压缩效果，同时在两个流行的基准数据集上实现了优于现有方法的精度和速度。

Jun, 2022

投影潜空间中的视频概率扩散模型

提出了一种名为投影潜空间扩散模型（PVDM）的新型生成模型，该模型在低维潜空间中学习视频分布，通过自编码器将视频投影为二维形状的潜变量，使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序，能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比，PVDM 在 FVD 评估指标上获得了最高的得分。

Feb, 2023

一次一个：多步体积概率分布扩散用于深度估计

本文提出了一种利用 Volumetric Probability Distribution 及 Markov chain 的深度估计任务多步分布逼近过程的方法，并在 MVS 和 SSC 方面取得了最新的研究成果。

Jun, 2023