MSCoTDet: 基于语言驱动的多模态融合技术用于提升多光谱行人检测

Mar, 2024

MSCoTDet: 基于语言驱动的多模态融合技术用于提升多光谱行人检测

MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection

Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim...

TL;DR多光谱行人检测通过引入大型语言模型，融合了视觉与语言信息，提高了检测准确性。

Abstract

multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians

multispectral pedestrian detection complementary information large language models multispectral chain-of-thought detection language-driven multi-modal fusion

发现论文，激发创造

通过解决模态失衡问题来提高多光谱行人检测

本研究提出了一种名为 MBNet 的多光谱行人检测模型，利用 Differential Modality Aware Fusion 模块以及光照感知特征对多种模态进行融合，在 KAIST 和 CVC-14 数据集上均取得了领先于现有模型的准确性与计算效率。

Aug, 2020

基于同时检测和分割的多光谱行人检测

本研究针对光照不足条件下的多光谱行人检测，提出了一种融合网络架构，包括多光谱提议网络和多光谱分类网络。该网络通过同时优化行人检测和语义分割任务进行学习，并通过整合不同模式和两个阶段的输出来获得最终的检测结果，在 KAIST 数据集上显著优于现有方法。此外，作者也提供了一个经过消毒的 KAIST 数据集训练标注，帮助解决不同种类标注错误的问题。

Aug, 2018

TFDet: RGB-T 行人检测的目标感知融合

本文提出了一种名为 TFDet 的新型多光谱行人检测方法，采用目标感知融合策略和相关最大化损失函数来增强地面行人特征，有效地解决了在低光条件下行人检测不准确的问题，并在两项基准测试中达到了 state-of-the-art 的性能。

May, 2023

光照感知深度神经网络融合多光谱数据用于行人检测

本文提出一种基于多任务学习的多光谱行人检测框架，利用新颖的感知权重机制、带 illumination-aware 的深层卷积神经网络等技术，提高了检测和语义分割的性能。实验结果表明，该方法在 KAIST 多光谱行人数据集上性能超过了现有的最先进方法。

Feb, 2018

学习跨模态深度表示以实现鲁棒的行人检测

本文介绍了一种新的行人检测方法，基于跨模态学习框架、深度卷积神经网络等技术，可在恶劣光照条件下实现行人检测，并在公开数据集上表现出优异的性能。

Apr, 2017

基于空间上下文深度网络的自动驾驶多模态行人检测

本文提出一种基于 RGB 和热图像的、具有新颖空间上下文深度网络结构和多模态特征嵌入模块的行人检测端到端多模态融合模型，其能够在真实世界的日夜低光照条件下实现高效而准确的检测。

May, 2021

因果模态复用器：一种用于无偏多光谱行人检测的新型框架

为了解决 RGBT 多光谱行人检测中模态偏差问题，文中提出了一种新的因果模式复用器（Causal Mode Multiplexer）框架，并构建了新的 ROTX-MP 数据集用于评估模态偏差。通过大量实验证明，所提出的 CMM 框架在现有数据集（KAIST、CVC-14、FLIR）和新的 ROTX-MP 数据集上具有很好的泛化能力，并将该数据集公开发布用于未来的研究。

Mar, 2024

行人检测的多光谱深度神经网络

本论文通过对 Faster R-CNN 进行多光谱行人检测任务的深入分析，并将其建模为卷积神经网络（ConvNet）融合问题，同时发现使用彩色和热成像图像训练的基于 ConvNet 的行人检测器在区分人类实例方面提供了互补信息，其在 KAIST 行人基准上的实验结果表明，在不同 DNN 阶段集成两个分支 ConvNets 的四种 ConvNet 融合结构中，半路融合模型在中间级卷积特征上的结合优于基线方法 11％，遗漏率比其他建议的架构低 3.5％。

Nov, 2016

高密度、遮挡和大规模事件中的地理车辆检测多模态协作网络

在大规模灾难事件中，构建最优救援路径的规划依赖于在灾难现场的目标检测能力，其中主要挑战之一是存在密集和遮挡的目标。该研究提出了一种多模态协作网络（MuDet）用于密集和遮挡的车辆检测，通过构建多模态数据集并采用三个主要模块来增强不同模态的特征，并通过定义和阈值化置信度值来有效分离复杂背景中密集遮挡的车辆目标。实验结果表明 MuDet 的鲁棒性和通用性。

May, 2024

AMFD: 自适应多模态融合的多光谱行人检测

多光谱行人检测中，采用自适应模态融合蒸馏（AMFD）框架，可有效利用原始模态特征，通过模态提取对齐模块提供学生网络的学习权重，进而独立于教师网络获得最佳融合策略，并在 KAIST、LLVIP 和 SMOD 数据集上实验证明了该方法在降低漏检率和提高平均精度方面优于现有最先进方法。

May, 2024