场景理解的直接优化学习

Dec, 2018

Learning Direct Optimization for Scene Understanding

Lukasz Romaszko, Christopher K.I. Williams, John Winn

TL;DR本文提出了一种名为 Learning Direct Optimization 的方法，用于解释和优化具有潜变量和场景图潜变量的 3D 计算机图形模型，实验表明，该方法比传统的以误差为基础的竞争方法更有效，能够更好地处理数据和拟合场景模型之间的不匹配问题。

Abstract

We develop a learning direct optimization (LiDO) method for the refinement of a latent variable model that describes input image x. Our goal is to explain a single image x with an interpretable →

latent variable model 3d computer graphics model learning direct optimization image refinement prediction network

发现论文，激发创造

从姿态中隐式学习场景几何用于全局定位

通过利用少量的标签数据（即相机姿态），本文提出了一种学习方法，将这些标签与刚性对齐相结合，学习场景的三维几何表示，并将其用于估计相机的六自由度姿态，从而提高了定位的准确性。

Dec, 2023

学习优化拟牛顿方法

本文提出了一种新的机器学习优化器 LODO，它将学习优化 (L2O) 技术与拟牛顿方法相结合，用于学习对称矩阵向量积的神经表示，从而适应于在测试任务中遍历的损失景观的局部特征。与其他 L2O 方法不同的是，我们的方法不需要在训练任务分布上进行任何元训练，并验证了其在噪声中的表现，并证明其能够表示一种广泛的逆 Hessian。实验表明，简单的替代方法会导致性能变差。最后，我们使用我们的优化器训练一个拥有 95k 参数的半真实深度神经网络，并获得了与标准神经网络优化器竞争的结果。

Oct, 2022

视觉语言对象检测的零样本可迁移增量学习

本文提出了一种增量的视觉 - 语言物体检测（IVLOD）学习任务，旨在在保持泛化能力的同时，逐步调整预训练的视觉 - 语言物体检测模型（VLODMs）以适应不同的专用领域。为了解决这一新挑战，我们提出了一种称为 Zero-interference Reparameterizable Adaptation（ZiRa）的新方法，该方法引入了零干扰损失和参数重参数化技术来处理 IVLOD，而不会增加额外的推理成本或显著增加内存使用量。对 COCO 和 ODinW-13 数据集进行的综合实验表明，ZiRa 能够有效保护 VLODMs 的零泛化能力，并持续适应新任务。具体来说，在 ODinW-13 数据集上训练后，ZiRa 的性能优于 CL-DETR 和 iDETR，分别提高了 13.91 和 8.71 个 AP 的零泛化能力。

Mar, 2024

基于对象的单图多层场景分解

本文提出了一种从单张 RGB 图像中建立分层深度图像的方法，其具有自适应层数和语义编码，特别适用于处理遮挡物体的准确性和重建三维场景。

Aug, 2019

使用隐式表示从单张图像中全面理解三维场景

本文提出了一种基于单幅图像的全面三维场景理解的新管道，该管道可以预测物体形状、物体姿态和场景布局，利用最新的深度隐式表示方法解决了物体形状和布局的不精确估计的问题，通过物理违规损失函数避免了物体之间的错误场景。实验结果表明，该方法在物体形状、场景布局估计和三维物体检测方面优于现有最先进技术。

Mar, 2021

使用可微分的多模态学习进行 3D 物体定位

本文描述了一种多模态方法，使用模拟的激光雷达数据，通过光线追踪和图像像素损失与可微分渲染相结合，优化物体在计算机图形场景中相对于观察者或某些参考对象的位置。通过梯度下降完成物体位置优化，损失函数受两种模态影响。将图像像素损失与可微分渲染结合的传统物体放置优化方法相比，本文表明使用第二种模态（激光雷达）可以更快地收敛。将传感器输入融合的这种方法对于自动驾驶车辆具有潜在的有用性，因为这些方法可以用于确定场景中多个参与者的位置。本文还提出了一种用于培训自动驾驶车辆的多种类型数据的模拟方法。

Sep, 2023

学习带约束优化的深度增广 Lagrangian 方法

机器学习模型通过训练来预测双重解估计，并从中构建原始估计，以形成双重可行解对。通过采用来自实际增广 Lagrangian 方法的技术，该训练方案可以改进，从而学习高度准确的有约束优化求解器，适用于凸和非凸问题。

Mar, 2024

NODIS: 神经常微分场景理解

本文提出了一种使用神经 ODE 求解的架构来进行语义图像理解，达到了当前三个基准任务的最佳结果，并构建了一个提供图像抽象语义解释的场景图。

Jan, 2020

从单张图像中预测多层深度：揭示物体背后的景深信息

该论文提出了一种基于卷积神经网络的方法，通过预测包含被前景遮挡区域信息的分层深度图像和前景分离掩模来合成场景和填补遮挡的空白，用于虚拟现实和减弱现实领域的单幅图像的新视点合成。

Jul, 2018

L3DOC：终身 3D 物体分类

本文提出了一种 Lifelong 3D Object Classification (L3DOC) 框架，该框架通过模拟 “人类学习” 的方式连续学习新的三维物体分类任务，其中核心思想是在生命周期学习的角度上分解 PointNet，同时在层次张量分解架构的角度上捕获和存储共享点知识。通过提出的内存注意机制可以将先前任务的任务特定知识软传输给新来的分类任务，从而实现有效的防止灾难性遗忘。与其他算法相比，我们的 L3DOC 模型可将模型的参数平均减少 1.68-3.36 倍，而不会牺牲每个任务的分类准确性。

Dec, 2019