BriefGPT.xyz
大模型
Ask
alpha
关键词
cross-modality interaction
搜索结果 - 4
RGB-T 显著目标检测中温度因素是否始终重要?
本文提出了一个名为 TNet 的网络,通过引入全局光照估计模块,设置不同的跨模态交互机制以及两阶段本地化和补全模块,来解决 RGB-T 显著性目标检测任务。在三个数据集上进行的广泛实验证明,与 20 种最先进的方法相比,所提出的 TNet
→
PDF
2 years ago
使用 Transformer 实现 3D 物体检测的基于体素的统一表示
UVTR 提出了一种统一的框架,旨在提高单模或跨模 3D 检测的准确性和鲁棒性,通过设计模态特定空间,保留体素空间并开发不同传感器的输入,实现几何感知点云和图像的上下文特征的交互,从而在 nuScenes 测试集中获得了领先的性能。
PDF
2 years ago
MLIM: 带掩码语言和图像建模的视觉语言模型预训练
本文介绍了一种新的 VLP 方法:MLIM,它使用 Masked Language Modeling 和 Image Reconstruction 两种损失函数以及 Modality Aware Masking 技术来增强语言和图片之间的交
→
PDF
3 years ago
MM
RGB-D 显著目标检测的跨模态不一致交互网络
通过重新考虑两种模态的重要性,本文提出了一种新的跨模态矛盾交互网络(CDINet),用于 RGB-D SOD。实验结果表明,这种网络在定量和定性上都优于 15 种现有的方法。
PDF
3 years ago
Prev
Next