场景理解的直接优化学习
通过利用少量的标签数据(即相机姿态),本文提出了一种学习方法,将这些标签与刚性对齐相结合,学习场景的三维几何表示,并将其用于估计相机的六自由度姿态,从而提高了定位的准确性。
Dec, 2023
本文提出了一种新的机器学习优化器 LODO,它将学习优化 (L2O) 技术与拟牛顿方法相结合,用于学习对称矩阵向量积的神经表示,从而适应于在测试任务中遍历的损失景观的局部特征。与其他 L2O 方法不同的是,我们的方法不需要在训练任务分布上进行任何元训练,并验证了其在噪声中的表现,并证明其能够表示一种广泛的逆 Hessian。实验表明,简单的替代方法会导致性能变差。最后,我们使用我们的优化器训练一个拥有 95k 参数的半真实深度神经网络,并获得了与标准神经网络优化器竞争的结果。
Oct, 2022
本文提出了一种增量的视觉 - 语言物体检测(IVLOD)学习任务,旨在在保持泛化能力的同时,逐步调整预训练的视觉 - 语言物体检测模型(VLODMs)以适应不同的专用领域。为了解决这一新挑战,我们提出了一种称为 Zero-interference Reparameterizable Adaptation(ZiRa)的新方法,该方法引入了零干扰损失和参数重参数化技术来处理 IVLOD,而不会增加额外的推理成本或显著增加内存使用量。对 COCO 和 ODinW-13 数据集进行的综合实验表明,ZiRa 能够有效保护 VLODMs 的零泛化能力,并持续适应新任务。具体来说,在 ODinW-13 数据集上训练后,ZiRa 的性能优于 CL-DETR 和 iDETR,分别提高了 13.91 和 8.71 个 AP 的零泛化能力。
Mar, 2024
本文提出了一种基于单幅图像的全面三维场景理解的新管道,该管道可以预测物体形状、物体姿态和场景布局,利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题,通过物理违规损失函数避免了物体之间的错误场景。实验结果表明,该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。
Mar, 2021
本文描述了一种多模态方法,使用模拟的激光雷达数据,通过光线追踪和图像像素损失与可微分渲染相结合,优化物体在计算机图形场景中相对于观察者或某些参考对象的位置。通过梯度下降完成物体位置优化,损失函数受两种模态影响。将图像像素损失与可微分渲染结合的传统物体放置优化方法相比,本文表明使用第二种模态(激光雷达)可以更快地收敛。将传感器输入融合的这种方法对于自动驾驶车辆具有潜在的有用性,因为这些方法可以用于确定场景中多个参与者的位置。本文还提出了一种用于培训自动驾驶车辆的多种类型数据的模拟方法。
Sep, 2023
机器学习模型通过训练来预测双重解估计,并从中构建原始估计,以形成双重可行解对。通过采用来自实际增广 Lagrangian 方法的技术,该训练方案可以改进,从而学习高度准确的有约束优化求解器,适用于凸和非凸问题。
Mar, 2024
该论文提出了一种基于卷积神经网络的方法,通过预测包含被前景遮挡区域信息的分层深度图像和前景分离掩模来合成场景和填补遮挡的空白,用于虚拟现实和减弱现实领域的单幅图像的新视点合成。
Jul, 2018
本文提出了一种 Lifelong 3D Object Classification (L3DOC) 框架,该框架通过模拟 “人类学习” 的方式连续学习新的三维物体分类任务,其中核心思想是在生命周期学习的角度上分解 PointNet,同时在层次张量分解架构的角度上捕获和存储共享点知识。通过提出的内存注意机制可以将先前任务的任务特定知识软传输给新来的分类任务,从而实现有效的防止灾难性遗忘。与其他算法相比,我们的 L3DOC 模型可将模型的参数平均减少 1.68-3.36 倍,而不会牺牲每个任务的分类准确性。
Dec, 2019