利用基于 Transformer 的框架提高图像字幕生成的深度信息

Jul, 2023

利用基于 Transformer 的框架提高图像字幕生成的深度信息

Enhancing image captioning with depth information using a Transformer-based framework

Aya Mahmoud Ahmed, Mohamed Yousef, Khaled F. Hussain, Yousef Bassyouni Mahdy

TL;DR本研究通过整合 RGB 图像与深度信息进行图像描述，提出了一种基于 Transformer 编码 - 解码框架生成 3D 场景多句描述的方法，并在 NYU-v2 和斯坦福图像段落描述数据集上进行了实验，结果表明深度信息可以提高图像描述的效果。

Abstract

Captioning images is a challenging scene-understanding task that connects computer vision and natural language processing. While image captioning models have been successful in producing excellent descriptions, the field has primarily focused on generating a single sentence for 2D imag

image captioning depth information multi-sentence description rgb and depth fusion nyu-v2 dataset

发现论文，激发创造

基于多模态注意力融合的 RGB - 深度图像语义分割模型

本文提出了一种有效的编码器 - 解码器模型和基于注意力的融合模块，以集成 RGB-Depth 图像的特征，从而提高语义分割的精度和计算效率。实验结果表明，该模型在计算成本和模型大小方面大大超越了现有的最先进模型，并且在准确性方面具有良好的性能。

Dec, 2019

室内深度补全的 RGB-Depth 融合 GAN

本文提出了一种基于深度信息补全技术，使用 RGB 图像和不完整的深度图像进行输入，设计了一种新的两支分支端对端融合网络，其中一个支路使用编码器 - 解码器结构从原始深度图中对局部密集深度值进行回归，另一个分支提出了一种 RGB 深度融合 GAN，通过自适应融合模块和置信度融合头来融合这两个分支的输出，从而实现了对室内环境中丢失深度数据的精确补全。

Mar, 2022

室内深度填充的 RGB - 深度融合 CycleGAN (RDFC-GAN)

使用 RDFC-GAN 模型基于 Manhattan world 假设将 RGB-D 信息转换为具有高纹理的深度图，并通过自适应融合模块 W-AdaIN 和 confidence fusion head 来解决室内深度图中大量连续缺失数据的深度完成问题。

Jun, 2023

揭示深度：一种多模态融合框架用于挑战场景

本文提出了一种新颖的方法，通过学习框架，识别和整合主导的跨模态深度特征，独立计算粗略深度图，并使用置信度损失和多模态融合网络进行端到端的深度估计，从而在各种困难情景中展示了鲁棒的深度估计能力。

Feb, 2024

从单目深度图像进行目标检测和语义分割

本研究证明，在计算机视觉中，利用单目图像估计出深度信息与 RGB 图像结合能够显著提高目标检测和语义分割的精度。

Oct, 2016

室内语义分割使用深度信息

采用多尺度卷积神经网络直接从图像和深度信息中学习特征实现室内场景的多类别分割，并在 NYU-v2 深度数据集上取得了 64.5% 的准确率，充分说明了适当的硬件（如 FPGA）可以实现实时处理。

Jan, 2013

无源域适应方法在 RGB-D 语义分割中的应用：基于 Vision Transformers

研究基于深度传感器的多模态框架和基于视觉变换器的源自由语义分割的深度感知方法，通过混合特征和深度信息以及深度基础熵最小化方法，能够提高分割效果。

May, 2023

基于两阶段遮罩自编码网络的室内深度完整性填充

基于 Transformer 的双步骤网络用于室内深度完成，采用自监督预训练编码器学习有效的潜在表示来填补缺失的深度值，并基于令牌融合机制从 RGB 和不完整的深度图像中完成室内深度重建。

Jun, 2024

基于迁移学习的高质量单目深度估计

本文提出了一种基于卷积神经网络的深度估计方法，结合迁移学习使用高性能网络初始化编码器以及增强和训练策略以获得更准确的结果，结果表明，即使是非常简单的解码器，我们的方法也能够产生细节详尽的高分辨率深度图像。

Dec, 2018

基于融合网络的亮度、深度和颜色信息用于语义分割

本文提出了一种名为 LDFNet 的新型解决方案，通过融合网络来综合利用亮度，深度和颜色信息，以提高 RGB-D 语义分割任务的性能，实验表明其潜力和适用性

Sep, 2018