- RealmDreamer: 基于文本驱动的带修补和深度扩散的 3D 场景生成
介绍了一种名为 RealmDreamer 的技术,可以通过文本描述生成通用的正面视图 3D 场景,并且具备高质量和多样性。该技术利用先进的文本到图像生成器初始化 3D 平面,并通过多个视图进行 3D 修补和基于图像的扩散建模,从而生成富含几 - 基于几何驱动的零样本三维点云理解聚合
通过利用点云的几何结构改进传输的视觉 - 语言模型,我们提出了首个无需训练的聚合技术,通过几何和语义的点级推理,在分类、部件分割和语义分割等三个任务中取得了新的技术优势。
- Boosting3D: 通过逐步学习将 2D 扩散先验提升到 3D 先验的高保真图像到 3D 转化
Boosting3D 是一种多阶段单图像到 3D 生成方法,能够在不同数据领域中鲁棒地生成合理的 3D 对象。该方法通过建模合理的几何结构来解决单图像引导的 3D 生成中的视角一致性问题,利用更好的 3D 先验在训练 NeRF 之前对目标对 - CurriculumLoc: 通过多阶段改进增强跨领域地理定位
视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案,取得了高召回率的好成绩。
- 完全连接 ReLU 层的几何结构
通过对神经网络中全连接 ReLU 层的几何结构进行形式化和解释,我们提出了 ReLU 层参数对输入域的自然划分,使得在每个划分区域内,ReLU 层可以大大简化;这导致了一个几何解释:ReLU 层可以看作是一个多面角投影,然后跟随一个仿射变换 - 探索神经衰竭:批标准化和权重衰减的影响
神经崩溃是最后一层神经网络分类器中出现的几何结构,本文研究了批归一化和权重衰减对神经崩溃的影响,并提出了几何直观的类内和类间余弦相似度度量来捕捉神经崩溃的核心方面。结果表明,批归一化和权重衰减可能是神经崩溃出现的基本因素。
- 透过黎曼几何解读扩散模型的潜空间
通过拉回度量和几何角度的分析,本文首次提出了通过潜空间遍历实现图像编辑的方法,并对扩散模型的潜空间结构进行了深入研究。
- 旋转等变对比学习结构化表示几何
本文提出了一种自我监督的学习方法,通过向嵌入空间添加额外的几何结构以获得更有意义的数据差异性表示,并引入等变目标使旋转操作在球面嵌入空间上的表现更佳,从而取得了更好的性能表现。
- 拓扑视差:深度感知模型的几何规范
使用拓扑视差作为理论和计算工具,基于参考数据集比较训练模型的多尺度几何结构,来提高 AI 系统的安全性和稳定性,进一步探讨深度学习应用中过拟合与泛化之间不清晰的关系。
- 对比损失是恢复类比为平行线所需的全部
利用对分布式数据的对比学习方法,可以在训练时间大大缩短的情况下,使得静态词嵌入模型在类比恢复任务上与现有流行的模型具有竞争优势,并且可以建立同现统计和结果词嵌入的几何结构之间的精确关系。
- ICLREDGI: 带体验代理的等变扩散规划
EDGI 是一种可使得体现实智能与空间对称性等几何结构特征的 Model-based 强化学习与规划算法,通过基于扩散模型的条件生成建模和指导策略来提高任务特定的采样效率和泛化能力。
- MVTec 3D-AD 数据集:用于无监督三维异常检测和定位
本研究介绍了用于无监督异常检测和定位任务的首个综合 3D 数据集。我们采用高分辨率工业 3D 传感器获取了 10 种不同物品类别的深度扫描,并提供了包含各种瑕疵的测试集。研究表明,对于我们的数据集,3D 异常检测方法还有很大的提升空间。
- NeRF-VAE:几何感知的 3D 场景生成模型
NeRF-VAE 是一种 3D 场景生成模型,通过使用 NeRF 和可微分体积渲染结构,将几何结构纳入考虑,利用摊销推理,无需重新训练便能推断新型场景的结构,采用显式的 3D 渲染过程与缺乏几何结构的卷积模型形成对比,它是一种 VAE 学习 - AAAI探索紧急通信中的图表示学习
本文利用图卷积网络支持多智能体系统中语言和合作的进化,并提出了一个具有不同复杂性的图形指称游戏,并提供了强基准模型,展示了出色的语言演化和合作特性。
- ICCVSpiralNet++:一种快速高效的网格卷积算子
本文提出了一种基于内在网格卷积运算符的快速高效算法,该算法明确形式化了聚集相邻结点的顺序而不是学习权重,并通过全连接层将局部几何结构信息与顶点特征融合在一起,从而实现了对不变形状特征的有效学习。经过在三种不同类型任务停滞面对三维面部表情分类 - 物理结构嵌入的变分积分网络
利用深度神经网络与微分方程系统之间联系的最新进展,我们提出了一种名为 “变分积分器网络” 的神经网络架构,旨在保留物理系统的几何结构,并且能够对复杂的动态系统进行精确的长期预测、解释和数据效率学习。
- GEOMetrics: 利用几何结构对编码为图的物体进行优化
本文提出了一种基于图卷积的自适应分裂启发式方法,利用几何对象的图表示的附加结构来提高重建,优化本地表面和全局结构,应用于 ShapeNet 数据集的 3D 物体重建任务中,生成了具有最先进表现的自适应网格。
- AAAI无需传感器的深度预测:利用结构从单目视频中进行无监督学习
该研究提出了一种基于几何结构的无监督视觉深度学习方法,通过建模场景和物体,学习单目视频的摄像机姿态和物体运动,并引入在线细化方法,实现对未知域的实时适应。该方法优于现有技术,包括处理运动的技术,并可用于机器人导航领域的室内和室外场景。
- CVPR观察边界:一种边界感知的人脸对齐算法
本文提出了一种新颖的边界感知的面部对齐算法,利用边界线作为人脸的几何结构来帮助面部标记的本地化,并从边界线中推导出人脸的标记,使标记的定义不再含糊。通过使用面部的边界信息,该方法在 300-W Fullset 上取得了 3.49%±0.07 - CVPR用于单图像新视角合成的几何感知深度网络
本文提出了一种利用场景 3D 几何信息进行新视角生成的方法,通过学习区域感知几何转换网络实现输入图像到目标视角的变换,并在 KITTI 和 ScanNet 数据集上取得了优于现有方法的高质量生成效果。