- SkateFormer:人类动作识别的骨骼时空变换器
提出了一种名为 SkateFormer 的新方法,通过将关节和帧基于不同类型的骨骼时空关系进行划分,并在每个划分中进行骨骼时空自注意力计算(Skate-MSA),从而在行动识别中有选择地关注关键关节和帧,提高了效率。在各种基准数据集上进行的 - Gabor 引导的变换器用于单图像去雨
通过引入 Gabor 滤波器,利用 Gabor 引导转换器(Gabformer)来增强局部纹理特征的聚焦,改善模型对噪声的鲁棒性,并在基准测试中表现优于最先进的方法。
- CRM:利用卷积重建模型将单张图像转换为带纹理的三维网格
在这项工作中,我们提出了一种高保真度的单图像到 3D 生成模型,名为 Convolutional Reconstruction Model(CRM),该模型通过将几何先验融入到网络设计中,从而克服了稀疏 3D 数据的限制,并在仅 10 秒内 - 关键图变换器用于图像修复
该论文介绍了一种名为 Key-Graph Transformer(KGT)的方法,它有效地在高分辨率输入中集成全局信息,提供了计算效率以及在 6 个图像恢复任务中的先进性能。
- LKFormer:红外图像超分辨率的大内核 Transformer
基于深度学习技术的大核变压器模型用于红外图像的高分辨率处理,超过了当前最先进的方法,参数更少性能更优。
- 近期命名实体识别研究进展综述
命名实体识别(NER)旨在从文本中提取命名真实世界对象并确定它们的类型,本文首先概述了最近流行的方法,然后探讨了其他调查中较少涉及的基于图和变换器的方法,包括大型语言模型(LLMs)。其次,重点介绍了适用于稀缺注释数据集的方法。第三,我们评 - 土地覆盖图像分类
这篇论文通过比较卷积神经网络和基于 transformer 的方法,探讨了在土地覆盖分类分析领域中,使用深度学习模型提高准确性和效率的最新进展。作者通过使用基于 Sentinel-2 卫星图像的 EuroSAT 数据集,证明了当前 tran - 图像超分辨率变换:基于 ConvFormer 的高效方法
通过引入 Convolutional Transformer 层(ConvFormer)和基于 ConvFormer 的超分辨率网络(CFSR),提出了一种有效且高效的轻量级图像超分辨率任务解决方案,通过使用大卷积核卷积作为特征混合器替代自 - 跨范围空间光谱信息聚合用于高光谱图像超分辨率
通过构建一种跨域空间 - 谱域的转换器来提高超光谱图像的空间分辨率,该转换器能够有效地捕捉远程相关性。
- LATIS:基于 λ 抽象的热像超分辨率
单幅图像超分辨率(SISR)的关键词包括:单幅图像超分辨率、基于 Transformer 的方法、lambda 抽象、热像。本文提出了一种基于 lambda 抽象的热像超分辨率新型轻量级架构(LATIS),通过局部和全局特征块(LGFB)分 - 用 Transformer 进行的多目标追踪的对比学习
通过引入实例级对比损失、修订的采样策略和轻量级分配方法,我们展示了如何将 DETR 转化为 MOT 模型,学习目标的外观并保留检测能力,其性能在具有挑战性的 BDD100K 数据集上超过了先前的最新技术水平 2.6 mMOTA,并在 MOT - WinNet:时间序列预测与窗口增强周期提取与交互
WinNet 是一种高准确性、简单结构的基于 CNN 的模型,用于长期时间序列预测任务,包括将一维序列转换为具有长期和短期周期性的二维张量,建模周期趋势和振荡项,以及利用周期趋势和振荡项的相关性通过 CNN 支持预测任务。通过在九个基准数据 - MM视频参照表达理解中的基于内容条件查询的 Transformer
使用动态查询和跨模态对齐,基于 Transformer 方法的 ConFormer 模型在视频参考表达理解中表现出色,实现了对目标对象的定位。
- FMRT:学习准确特征匹配的调和变换器
本研究提出了一种名为 Feature Matching with Reconciliatory Transformer(FMRT)的新型 Transformer-based 检测器自由方法,它能够自适应地调解不同特征和多个感受野,并利用并行 - ICCV一种新的端到端手语翻译数据集:希腊小学数据集
自动手语翻译是一个具有巨大社会影响的研究领域,通过端到端手语翻译可以促进听力有困难的人与听力正常的人之间的交流,从而提高他们的社交生活和参与社会生活的机会。针对现有资源有限的问题,研究者构建了一个新的希腊手语视频翻译数据集,包含 29653 - 基于自注意力的自适应变形网络用于图像增强
我们提出了一种新的基于降噪感知自注意的 Transformer 模型,将 CNN 和 Transformer 组件结合到超分辨网络中,实现了在盲超分辨率方面的最先进性能。
- 利用数据增强技术增强基于 Transformer 的跟踪模型
通过系统实验,揭示了现有的常见策略对基于 Transformer 的目标跟踪器的有限效果,提出了两种自定义的数据增强方法,并在两个基于 Transformer 的跟踪器和六个基准测试中证明了这些方法的有效性和数据效率。
- HAT:用于图像恢复的混合注意力变换器
Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is pr - 去噪多目标追踪:面向严重遮挡的方向
本研究分析了传统的卷积神经网络方法和基于 Transformer 的方法在处理遮挡时的局限性,并提出了一种用于多目标跟踪的端到端可训练的去噪 Transformer 模型(DNMOT),通过在训练过程中显式地模拟遮挡情况来解决遮挡带来的挑战 - ICCV用于 3D 交互手部网格恢复的提取和调整网络
EANet 提出了两种新的令牌类型:SimToken 和 JoinToken,来解决 Transformer 中的远距离令牌问题,有效地提取并调整交互特征,实现 3D 交互手部网格恢复的最先进性能。