BriefGPT.xyz
大模型
Ask
alpha
关键词
global interaction
搜索结果 - 3
IJCAI
跨模态全局交互与局部对齐的视听语音识别
本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法,从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性,用于改善音频 - 视觉语音识别中的多模态表示,实验结果表明我们的方法优于现有的有监督学习方法。
PDF
a year ago
用均匀注意力为视觉 Transformer 提供支持
通过研究 Vision Transformers 中的 self-attention 机制密度,得出了密集交互对模型的重要性,并提出了一种新的方法 ——Context Broadcasting (CB),有效地提高了模型的容量和泛化能力。
PDF
2 years ago
CVPR
Mobile-Former:连接 MobileNet 和 Transformer
Mobile-Former 是一种结合 MobileNet 和 Transformer 的二元桥设计,其具有较低的计算成本和更强的表示能力,可以用于图像分类和对象检测,并在低 FLOP 区间内胜过 MobileNetV3 以及传统目标检测框
→
PDF
3 years ago
Prev
Next