基于 3D 感知正则化的多任务学习

Oct, 2023

Multi-task Learning with 3D-Aware Regularization

Wei-Hong Li, Steven McDonagh, Ales Leonardis, Hakan Bilen

TL;DR通过引入结构化 3D-aware 正则化方法，将深度神经网络与多任务背景相结合，可以改善性能。

Abstract

deep neural networks have become a standard building block for designing models that can perform multiple dense computer vision tasks such as depth estimation and semantic segmentation thanks to their ability to

deep neural networks computer vision tasks structured 3d-aware regularizer multi-task backbones performance

发现论文，激发创造

密集型多任务学习的跨任务注意机制

该研究介绍了一种多任务学习架构，通过相关性引导的注意力和自我关注增强平均表示学习，以通过 2D 语义分割和几何相关的任务来综合理解复杂场景，并在室内和室外数据集上展示了其好处。

Jun, 2022

利用任务适应性注意力生成器的实时自主驾驶多任务学习

本文介绍了一种新的实时多任务网络，包括单目三维物体检测、语义分割和密集深度估计，通过引入任务自适应注意力生成器来解决多任务学习中普遍存在的负迁移问题，并利用硬参数共享方法提高效率，能够同时处理多个任务，尤其是三维物体检测，并保持实时处理速度。经过在 Cityscapes-3D 数据集上的严格优化和深入剖析研究，我们的网络始终优于各种基准模型。

Mar, 2024

对比多任务密集预测

本文提出了一种基于特征对比一致性的多任务对比正则化方法，以解决多任务密集预测的跨任务交互建模问题，并在两个数据集上进行了大量实验，展示了该方法在密集预测方面的优越表现，创立了新的最先进性能。

Jul, 2023

3M3D: 多视角、多路径、多表征 3D 目标检测

提出了一种基于多视图轴自注意力和局部 ROI 自注意力的多路径多表示 3D 物体检测方法，通过稀疏浮动查询和密集 BEV 查询的多重表示进一步提高了性能，对于自动驾驶系统具有重要意义。

Feb, 2023

跨任务和领域传递良好特征的学习

本文提出一种基于知识迁移和神经网络的方法，使得在新领域中，能够在有限或无额外监督的情况下利用特定领域中已学知识解决新任务，并且在特征空间约束和映射网络方面提出了一些策略，从而在合成到真实的语境下，利用单目深度估计和语义分割任务之间的知识迁移，获取了令人满意的结果。

Jan, 2023

基于形状概念的深度监督算法用于考虑遮挡的三维物体分割

本研究中，我们利用深度卷积神经网络架构在 2D 图像和 3D 空间中定位语义部件并推断它们的可见性状态，其利用合成数据和模拟的遮挡情况训练网络，并表明了其在现实图像基准测试中具有最先进的性能和有效的迁移知识。

Dec, 2016

利用多个先验条件进行神经网络 3D 室内重建

我们提出了一种新颖的神经隐式建模方法，利用多种正则化策略在仅依赖图像的情况下实现大型室内环境的更好重建，通过稀疏但准确的深度先验将场景锚定到初始模型，并引入一种密集但精度较低的深度先验，灵活性足以让模型从中分离出来改善估计的几何建模，并提出了一种新颖的自监督策略来规范估计的表面法线，最后，可学习的曝光补偿方案适应复杂的光照条件。实验结果表明，我们的方法在具有挑战性的室内场景中产生了最先进的 3D 重建结果。

Sep, 2023

医学影像的 3D 自监督方法

本文提出了针对五种不同的自监督学习方法的三维版本，利用这些技术进行神经网络特征的学习，通过对三维图像的预处理，显著提高语义表示的精确性，从而在医学成像领域实现了数据效率、性能和收敛速度的提升，具有较高的竞争力和可扩展性。

Jun, 2020

使用深度卷积网络进行联合语义分割和深度估计

本研究采用多尺度卷积神经网络，提出一种单一 RGB 图像用于深度估计和语义分割的深度学习模型，该模型采用单一损失函数进行训练，同时使用完全连接的 CRF 捕捉语义和深度线索之间的上下文关系和交互作用，实现更精确的结果。在 NYUDepth V2 数据集上进行实验，该模型在语义分割方面表现优于最先进方法，在深度估计任务上实现可比较的结果。

Apr, 2016

深度场网络用于多视角场景的通用表示

提出了一种使用 Transformer 架构学习隐式多视图一致场景表示并引入一系列 3D 数据增强技术的方法来增加视角多样性的深度估计网络，同时介绍了引入视角合成作为辅助任务，该网络在不使用显式几何约束的情况下在立体和视频深度估计方面取得了最先进的结果，并在零样本领域泛化方面有了显著的提高。

Jul, 2022