- RadRotator:基于扩散模型的根管 X 射线片的三维旋转
利用扩散模型技术将二维图像转化为三维体积,从医学角度解决了之前研究中的两个限制,并通过像素强度随机变换训练和推断,使得扩散模型能在传统射线照片上进行可靠的深度学习
- DATENeRF: 基于深度的文本编辑技术
利用拓展到神经辐射场(NeRF)的编辑技术来编辑场景是复杂的,本文提出了利用 NeRF 场景的几何信息作为桥梁来整合 2D 编辑的方法,并引入了一种填充方法来确保对不同图像的 2D 编辑具有鲁棒性。结果表明,该方法比现有的文本驱动 NeRF - 三维形态一致化:野外三维感知图像对齐
我们提出了 3D Congealing 方法,这是一个新颖的问题,即对于捕捉到语义相似物体的 2D 图像进行 3D 感知对齐。我们的目标是将输入图像中的共享语义部分与 2D 图像中的知识聚合到共享的 3D 规范空间中,通过一个不依赖于形状模 - 建筑设计的生成式人工智能:文献综述
这篇文章探讨了生成人工智能在建筑设计中的广泛应用,从生成 2D 图像、视频和 3D 模型的基本原理到对建筑设计各个阶段的影响,指出了设计创新的新方向和应用生成人工智能的新轨迹。
- AAAI改进相机位姿和分解低秩张量辐射场的鲁棒性优化
我们提出了一个算法,允许使用仅具有 2D 图像作为监督来共同优化由分解低秩张量表示的相机姿态和场景几何,利用分解低秩张量的分解属性,我们的方法在仅产生少量计算开销的情况下实现了等效于蛮力 3D 卷积的效果。
- 基于 ImageNet 中的野外图像的几何感知 3D 生成
从多样且非结构化的 Imagenet 数据集中,我们提出了一种从二维图像中重建三维几何模型的方法,使用高效的三平面表示法学习三维模型,并基于 StyleGAN2 的生成器架构对高度多样化的数据集进行调整,通过多视点辨别防止模式崩溃并提升训练 - 图像雕塑:精确的三维几何控制下的物体编辑
Image Sculpting 是一个结合 3D 几何和图形学工具来编辑 2D 图像的新框架,将 2D 对象转化为 3D 并支持精确、可量化和物理上可行的编辑选项,是将生成模型的创造自由与图形管线的精准性结合的初步尝试。
- SketchBodyNet:基于草图驱动的多方面解码网络用于 3D 人体重建
本研究提出了一种名为 SketchBodyNet 的基于手绘草图的多方面解码网络,用于从手绘草图中重建 3D 人体网格模型,实验证明该方法在从手绘草图中重建 3D 人体网格方面取得了优异的性能。
- MultiPlaneNeRF: 具有非可训练表示的神经辐射场
本文介绍了 MultiPlaneNeRF 模型,该模型可从 2D 图像中直接产生非可训练的表示,并可通过大量数据的训练来实现推广,以及在生成新视角方面达到业界领先水平。
- 比较轨迹和视觉模态的动词表示方法
本文测试了 2D 图像和 3D 轨迹编码器在学习动词概念时的效果,发现 2D 图像在语言表示学习方面和 3D 轨迹表现相似,挑战了通常认为更丰富的环境表示一定能够更好地进行语言表示学习的传统智慧。
- AAAI联合自监督图像体表示学习:基于内外对比聚类
本文提出了一种用于医学数据的自监督深度学习的框架,该框架可以联合学习 2D 和 3D 数据,通过用变形注意力机制构建整体特征,并利用预训练语言模型进行掩蔽嵌入预测,提高了 2D Deep-ClusterV2 和 SwAV 的效果,并超越了各 - CVPR桥接变压器用于视觉和点云 3D 物体检测
使用 Bridged Transformer 对 3D 与 2D 目标物体区域进行端到端的学习,特别利用对象查询作为 3D 和 2D 空间的桥梁,实现多模式融合,可有效实现从点云和图像中识别物体的边界框,进而提高多视角成像中的物体检测效率。 - ACL基于 Voxel 的语言基础
Voxel-informed Language Grounder is a language grounding model that leverages 3D geometric information to improve ground - CVPR从噪声 2D STEM 图像中清洁隐式三维结构
论文提出了一种可将二维噪声图像融合为有用的三维模型的不同 iable 模型,实现了无监督的三维信号与噪声分离,并在合成和实际数据方面优于多个基准模型。
- ICCV从图像集合中发现三维部件
本文提出了一种自我监督的方法(LPD)来发现只有 2D 图像的物体的三维部件,并使用新的部件形状先验学习足够简单而又能忠实地匹配物体形状的部件,这种方法在实验中表现良好,比现有方法具有更好的重构精度。
- ICCV多视点 PointNet 用于 3D 场景理解
本文介绍了 MVPNet 模型,该模型使用视图选择和 2D-3D 特征聚合模块将 2D 多视图图像特征汇集到 3D 点云中,并使用基于点的网络将 3D 规范空间中的特征融合以预测 3D 语义标签。该方法在 3D 语义分割任务上,优于以前的点 - ICCV通过嵌入颜色的三维重建实现精确的单目物体检测,用于自动驾驶
本文提出了一种自动驾驶中单目三维物体检测框架,着重解决了二维图像数据的不足,通过将输入数据从二维图像平面转换为三维点云空间进行处理,并使用 PointNet 网络进行三维检测,以提高点云的辨别能力,同时利用多模态融合模块将 RGB 颜色信息 - DenseBody:从单幅彩色图像直接回归密集式三维人体姿势和形状
本文提出使用卷积神经网络和编码器 - 解码器神经网络从单张彩色图像中直接回归 3D 人体网格,利用高效的 3D 人体形状和姿势表示方法,在 Human3.6M、SURREAL 和 UP-3D 等多个 3D 人体数据集上实现了最新性能。
- 可微分渲染:面向无监督单视角网格重建
本文提出了一种基于 contour 的非参数、真正可微分的 soft rasterizer,使得可以从单张图片进行高质量 3D 网格重建的无监督学习成为可能,且相比其他无监督方法表现出了极大的优势。同时,我们还展示了在各种实际情况下,我们的 - 逃离柏拉图的洞穴:对抗性渲染中的三维形状
PlatonicGAN 通过训练神经网络生成 3D 模型,结合 2D 图像投影生成多种相机角度下的 2D 图像,支持无结构的 2D 图像集合恢复 3D 结构,并通过实验证明了其对于 3D 监督方法的优越性。