本文提出了一种新颖的概率生成建模方法,称为 Point-Voxel Diffusion(PVD),它是一个统一的、概率的公式,用于无条件的形状生成和多模态形状完成。PVD 将降噪扩散模型与 3D 形状的混合点 - 体素表示相结合,并通过优化变分下界来训练(条件)似然函数。实验证明了 PVD 的高保真度合成能力,以及从单视角深度扫描的真实对象中生成多个完成结果的能力。
Apr, 2021
DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。
Oct, 2023
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
利用多视角深度,通过 MVDD 扩展扩散模型以生成高质量的 3D 形状,并通过增强视图之间的一致性及深度图对齐来提供卓越的 3D 形状生成和深度完成能力,以及作为下游任务的 3D 先验。
Dec, 2023
我们提出了一种新的基于优化的 3D 人体模型拟合范式,采用每个点的神经场网络进行训练,结合梯度下降优化管道实现对穿着衣服的人体的拟合。与现有的方法相比,这种方法能够捕获到具有非常不同身体形状的人的潜在身体,并在 3D 模型拟合中实现了显着改进。
May, 2022
本研究提出了一种基于地面化文本到视频生成框架的 GVDIFF 方法,通过将地面化条件引入到自注意力机制中,以明确指导网络的关注点;引入空间 - 时间定位层,连接地面化条件与目标对象,使模型在空间 - 时间领域具有地面化生成能力;动态门网络适应性地跳过冗余地面化过程,有选择地提取地面化信息和语义,提高效率。对 GVDIFF 的地面化生成能力进行了广泛评估,并展示了其在长距离视频生成、顺序提示和对象特定编辑等应用中的多样性。
Jul, 2024
通过引入情景表示变换器和视图条件扩散模型,该论文提出了一个通用框架,用于从单个图像生成一致的多视图图像。通过多视图注意力和极线几何约束来确保三维一致性,该模型能够从仅一个图像输入生成超过基准方法在评估指标(包括 PSNR、SSIM 和 LPIPS)方面的三维网格。
May, 2024
本文提出了一种基于点到体素知识蒸馏的方法,通过将隐藏层的知识从点级别和体素级别进行转移,采用困难感知的采样策略和点 - 体素相似度蒸馏,提高了 LiDAR 语义分割任务中教师模型向学生模型的知识压缩效果,同时在两个流行的基准数据集上实现了优于现有方法的精度和速度。
Jun, 2022
提出了一种名为投影潜空间扩散模型(PVDM)的新型生成模型,该模型在低维潜空间中学习视频分布,通过自编码器将视频投影为二维形状的潜变量,使用专用于新因式潜空间的扩散模型架构和训练 / 采样程序,能够高效地训练和合成任意长度的视频。实验表明与以前的视频生成方法相比,PVDM 在 FVD 评估指标上获得了最高的得分。
Feb, 2023
本文提出了一种利用 Volumetric Probability Distribution 及 Markov chain 的深度估计任务多步分布逼近过程的方法,并在 MVS 和 SSC 方面取得了最新的研究成果。
Jun, 2023