我们提出了一种基于学习的图像引导渲染技术,结合了基于图像的渲染和基于 GAN 的图像合成的优点,旨在生成虚拟和增强现实应用程序的重建对象的逼真重新渲染,一个我们工作的核心组件是处理视点相关效应,我们在方案中直接训练一种特定于对象的深度神经网络合成对象的视点相关外观。
Nov, 2018
这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想,将其嵌入移动视觉场景理解的递归网络架构中,以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中,通过不同 iable 几何操作进行预测和分割,十分成功。
Dec, 2018
本文研究自监督学习中如何直接运用语义结构来指导几何表示的学习,提出了一种新的基于预训练语义分割网络和像素自适应卷积的架构,并使用两阶段训练过程来克服动态对象上的常见语义偏差。结果表明该方法在所有像素、细节和语义类别上都优于现有方法,实现了自监督单目深度预测的最新水平。
Feb, 2020
基于学习的方法,使用生成式查询网络(GQNs)与新颖的注意力机制,无需建立显式的点云或体素地图,实现对 Minecraft 中的 3D 场景进行视觉定位任务。
Jul, 2018
提出了一种无需手动监督来学习视觉对象(例如面部中的眼睛和鼻子)的地标探测器的方法,通过几何提取过程中引入的紧密瓶颈,结合外观和几何来生成图片,该方法适用于多种数据集,包括人脸、人物、3D 对象和数字,同时在无监督地标检测方面优于现有最先进的技术。
Jun, 2018
该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题,该方法使用生成模型进行描述符学习,并在语义场景补全作为辅助任务进行训练,以使得生成的三维描述符具有鲁棒性,并能够实现在极端视角,光照和几何变化下的可靠定位。
Dec, 2017
本文探讨了基于预测未来帧的 CNN-LSTM-deCNN 框架的深度神经网络开发的内部模型,该模型学习了高层次对象特征的丰富内部表示。可以广泛泛化,是一种有效的无监督学习方法。
Nov, 2015
本文介绍了一种从自然图像中学习生成 3D 形状的生成模型的全面无监督方法,其中利用 GAN 等深度学习技术实现,从而生成出真实的三维图像,实现了从二维图像向三维图像的转换。
Oct, 2019
该研究提出了一种基于变分自编码器的语义表示方法,实现了对三维语义地图的实时增量建立与空间一致的语义标签融合,可以用于单目关键帧语义映射系统,并能够实现对位姿、几何和语义的联合优化。
Mar, 2019
本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过 Bag-of-Words 表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力。