BriefGPT.xyz
Ask
alpha
关键词
fusion modules
搜索结果 - 4
膳食管理的营养估计:基于深度感知的变形器方法
NuNet 是一种基于变压器的网络,利用食物图像的 RGB 和深度信息进行营养估计,通过多尺度架构和融合模块,实现了最低已知的 15.65% 的误差率,在饮食管理方面具有重要实用价值和跨国研究和部署的潜力。
PDF
a month ago
SCANet: 自我和交叉注意网络用于音视频语音分离
提出了一种名为自注意力网络(SCANet)的模型,通过利用注意机制实现有效的音频 - 视觉特征融合,其中包含了自注意力块(SA)和交叉注意力块(CA),能够从音频 - 视觉特征中提取不同的语义信息,并在三个标准音频 - 视觉分离基准上得到了
→
PDF
a year ago
高帧率跟踪的帧 - 事件对齐与融合网络
该论文提出了使用多模方式结合 RGB-based trackers 和 event-based cameras 进行 high frame rate tracking 的方法,并应用 multi-modality alignment 和 f
→
PDF
a year ago
MM
多模态追踪的提示
本研究提出一种基于 prompt 范式的多模态 prompt 跟踪器 ProTrack,通过最大程度地利用 RGB 跟踪器预训练的跟踪能力,仅通过修改输入即可实现高性能的多模态跟踪,对 5 个基准数据集进行的大量实验证明了 ProTrack
→
PDF
2 years ago
Prev
Next