FuseFormer: 用于视觉和热图像融合的 Transformer
本研究提出一种新的基于 Transformer 的图像融合方法,采用多尺度融合策略同时关注局部和全局信息,使用卷积神经网络与 Transformer 分支捕捉局部和长程特征,经对比实验表明,该方法优于当下多种融合算法。
Jul, 2021
本文介绍了用于医学图像分割的 TransFuse 并行网络结构,将 Transformers 和 CNNs 并置,以有效地捕捉全局依赖关系和低级别空间细节,且使用了一种新的特征融合方法 —BiFusion 模块来融合两个分支的多级特征。实验结果表明,TransFuse 在医学图像分割任务中的性能优于目前最先进的技术,同时在参数数量和推断速度上也有显著改进。
Feb, 2021
本文提出了一种使用 CNN 和 transformer 结构融合的方法来改善图像分类性能,通过将图像转换成特征图并分为不同的区域,然后采用三种融合方法将这些区域与 transformer 的视野融合,实现在 ImageNet 1k 上最佳分类性能。
Aug, 2022
该论文介绍了一种使用 Transformer 模块在多个分辨率上有效合并局部和全局上下文关系的相机和 LiDAR 数据融合方法,并通过与两个具有长途路线和高密度交通的对抗基准的广泛实验证实了该方法的性能优势。与之前的方法相比,该方法在最具挑战性的基准测试中取得了显著更高的驾驶和违规得分,对于 Longest6 和 Town05 Long 基准测试,分别取得了 8% 和 19% 的提升。
Aug, 2023
通过融合 transformers 和 CNNs,我们提出了一种混合架构用于医学图像分割,旨在克服 CNNs 在捕捉全局依赖性和局部空间细节方面的局限性。我们通过比较各种架构和配置,并进行多次实验来评估它们的有效性。
Jan, 2024
本文提出一种基于自编码器的图像融合网络,通过分解图像特征,实现融合的可靠性和细节纹理信息的丰富性,取得了较好的实验效果和鲁棒性。
Mar, 2020
本文介绍了一种基于卷积神经网络的无监督端到端学习方法,可以直接从多焦点输入图像对中预测完全聚焦的输出图像,并利用图像结构相似性 (SSIM) 计算损失。实验结果表明,该方法在视觉质量和客观度量方面优于现有的最先进技术。
Jun, 2018
提出了基于 Transformer 的非线性变换和包含两个不同超先验的熵模型,通过有效地捕获输入图像的局部和全局信息以及利用远距关系提取长程信息,能够在速率 - 失真性能方面表现优于现有的方法。
Sep, 2023
本文介绍了一种新的深度估计模型,使用 Vision Transformers 来提取图像中的全局上下文信息,实现对深度估算的改进,最终该模型在标准测试数据集上达到了最优性能。
Nov, 2022
本文提出了一种基于 transformer 的多模态融合块 TFusion,采用 tokens 和 transformer layers 自动学习融合可用多模态,引入 modal attention 机制减少依赖于特定模态,可用于多模态人体活动识别和脑肿瘤分割任务,并取得了更好的性能表现。
Aug, 2022