使用 IDPD3 可视化交互推断
通过增加用户交互能力,我们引入了 Interactive3D 框架,使得用户能够精确控制 3D 生成过程,从而显著提高 3D 生成的可控性和质量。
Apr, 2024
本文提出了 ViP3D,这是一种基于查询的可视化轨迹预测管道,利用原始视频中的丰富信息来预测场景中代理的未来轨迹。该方法在 nuScenes 数据集上的实验结果表明 ViP3D 相较于传统管道和以前的端到端模型表现更好。
Aug, 2022
3D Diffusion Policy (DP3) is a novel visual imitation learning approach that incorporates 3D visual representations to teach robots dexterous skills, demonstrating precise control, high success rates, and excellent generalization abilities, while rarely violating safety requirements in real-world robot learning.
Mar, 2024
本文提出了一个结合了低分辨率可编辑性和高质量的生成模型,是 3D-semantics-aware 方法的新途径,在视图一致、语义分离的面部图像方面具有状态 - of-the-art 的性能、忠实度和效率。
May, 2022
通过视觉粒子动力学以及端到端学习的方式,我们提出了一种从观测数据中直接学习模拟器的方法,避免了对特殊的信息的依赖,从而实现更加真实可信的仿真。这一方法的 3D 结构使得场景编辑和长期预测成为可能,为视频编辑和机器人规划等应用提供了新的路径。
Dec, 2023
本文提出了一种首个跨越视觉和文本领域的动态关系结构的神经推理方法,可在视觉问答中应用,采用其动态结构反映不断演变的推理上下文,发现有助于多步知识组合和优化的动态图优化问题求解能力。
Apr, 2020
本文介绍了 PI3D,一个高效的框架,利用预训练的文本到图像扩散模型在几分钟内生成高质量的 3D 形状。通过将预训练的 2D 扩散模型微调为 3D 扩散模型,PI3D 具备了 3D 生成能力和源自 2D 模型的泛化能力,并利用 2D 扩散模型的分数蒸馏抽样快速提高采样的 3D 形状的质量。通过将知识迁移为一组伪图像,PI3D 实现了从图像到三视图生成的迁移。我们通过调整预训练模型中的模块,实现了使用伪图像和真实图像进行混合训练,这已被证明是一种提高泛化能力的有效策略。PI3D 的效率在于能够在几秒钟内采样多样性的 3D 模型,并在几分钟内对其进行改进。实验结果证实了 PI3D 相对于基于 3D 扩散模型或提升 2D 扩散模型的现有方法在快速生成一致且高质量的 3D 模型方面的优势。建议的 PI3D 是文本到 3D 生成领域的一个有前景的进展,我们希望它能激发更多关于利用 2D 和 3D 数据知识的 3D 生成研究。
Dec, 2023
我们提出了 ID-to-3D,这是一种方法,可以通过从一个随意拍摄的野外图像中生成具有解耦表情的身份和文本引导的 3D 人头。我们的方法基于组合性,并使用特定任务的 2D 扩散模型作为优化的先验知识。我们的结果实现了前所未有的一致性身份和高质量纹理和几何生成,可以用于游戏和远程呈现。
May, 2024
本文提出了一种名为 VRDP 的统一框架,可以从视频和语言中联合学习视觉概念,并推断对象及其交互的物理模型,通过无缝集成三个组成部分:视觉理解模块、概念学习器和可微分的物理引擎。
Oct, 2021
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023