RendNet：具有潜在空间渲染的统一2D/3D识别器

Jun, 2022

RendNet：具有潜在空间渲染的统一2D/3D识别器

RendNet: Unified 2D/3D Recognizer With Latent Space Rendering

Ruoxi Shi, Xinyang Jiang, Caihua Shan, Yansen Wang, Dongsheng Li

TL;DR提出了一种名为RendNet的统一体系结构，它考虑了VG / RG表示形式并利用它们之间的相互作用，通过纳入VG-to-RG光栅化过程来实现2D和3D对象识别任务的最先进性能。

Abstract

vector graphics (VG) have been ubiquitous in our daily life with vast applications in engineering, architecture, designs, etc. The vg recognition process of most existing methods is to first render the VG into ra

发现论文，激发创造

3D-SIS: RGB-D扫描的三维语义实例分割

本文介绍了一种新型的神经网络体系结构：3D-SIS，用于在商品RGB-D扫描中进行三维语义实例分割。它结合了几何和颜色信号的联合学习，从而实现了精确的实例预测。该网络利用了高分辨率RGB输入和多视角RGB-D输入，并在3D重建的姿态对准的基础上将2D图像与体积网格相结合，实现了2D和3D特征学习组合，从而达到了超过13的mAP改进。

Dec, 2018

DeepSVG：用于矢量图形动画的分层生成网络

本文提出了一种新颖的分层生成网络DeepSVG，可用于生成和插值SVG图标。研究者通过引入一个新的大规模数据集并结合开源SVG操作库，证明了该网络能准确重建各种矢量图形，并可作为强大的动画工具。

Jul, 2020

从2D视觉Transformer开始解决3D视觉任务？

本文提出一种通用的视觉转换器（Visual Transformer），名为Simple3D-Former，可用于高效地进行2D和3D任务的训练和预测，并且相比高度定制的3D特有设计实现了惊人的鲁棒性，同时利用大规模现实2D图像的预训练权重可免费提高3D任务的性能.

Sep, 2022

DGC-GNN: 基于几何颜色图神经网络的无特征描述符2D-3D匹配

本论文介绍了一种名为DGC-GNN的新算法，它采用全局到局部的图神经网络来逐步利用几何和颜色线索来表示关键点，从而提高匹配的鲁棒性。DGC-GNN不仅使无描述符算法的精度翻倍，而且还显著缩小了基于描述符和无描述符方法之间的性能差距。

Jun, 2023

PVG：渐进视觉图用于视觉识别

通过逐渐增加全局图分支的通道并减少局部分支的通道，逐渐分离图构建（PSGC）引入二阶相似性，使用最大池化和数学期望（MaxE）进行富信息邻居节点信息聚合和更新，以减轻过度平滑的图错误线性单元（GraphLU）增强松弛形式的低值信息，实验证明PVG在图像识别任务中优于现有方法。

Aug, 2023

3DCoMPaT++：一个用于复合识别的改进大规模三维视觉数据集

3DCoMPaT++是一个多模态2D/3D数据集，包含超过1亿个渲染视图的1000万多个精心注释的样式化3D形状，以及与之匹配的RGB点云、3D纹理网格、深度图和分割掩码。该数据集涵盖了41种形状类别、275种精细化部分类别和293种可组成应用于3D对象部件的细粒度材料类别。我们引入了一项名为Grounded CoMPaT Recognition（GCR）的新任务，以共同识别和基于3D对象的部件上的材料组合。此外，我们还报告了CVPR2023组织的数据挑战的结果，展示了获胜方法利用在6D输入上训练的修改版PointNet++模型，并探索了GCR增强的替代技术。我们希望我们的工作能够有助于简化未来关于组合式3D视觉的研究。

Oct, 2023

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言-物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

Mono3DVG: 单目图像中的三维视觉定位

我们介绍了一项新的任务，使用带有外观和几何信息的语言描述在单目RGB图像中进行3D可视定位。具体而言，我们构建了一个大规模数据集Mono3DRefer，其中包含具有对应的几何文本描述的3D目标，由ChatGPT生成并手动改进。为了促进此任务，我们提出了Mono3DVG-TR，一种利用文本嵌入中的外观和几何信息进行多模态学习和3D目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器，用于改进所参考对象的多尺度视觉和几何特征。基于深度-文本-视觉堆叠注意力，解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布：this https URL。

Dec, 2023

VGBench：对矢量图形理解和生成的大型语言模型评价

通过使用VGBench数据集和评估管道，我们发现大型语言模型(LLMs)在处理矢量图方面表现出很强的能力，尤其在视觉理解和生成方面，但在低级格式(SVG)上表现不佳。

Jul, 2024

MV-DETR：基于多视角检测的多模态室内物体检测

本文提出了一种新的MV-DETR管道，解决了RGBD数据中几何和纹理特征提取的不足。通过设计轻量级VG模块，分离编码几何和纹理线索，显著提高了检测效率和效果。实验结果表明，在ScanNetV2数据集上，该方法达到78%的AP，创造了新的最先进水平。

Aug, 2024