BriefGPT.xyz
大模型
Ask
alpha
关键词
vision backbone
搜索结果 - 3
DeViL: 将视觉特征解码为语言
我们提出了 DeViL 方法,该方法利用后续解释方法在深度神经网络决策过程中提供了自然语言描述,通过将视觉特征解码为语言,突显了不同层次的网络中视觉特征的归属位置,并在图像和文本之间进行转换,生成视觉网络不同层次的文本描述。
PDF
10 months ago
CVPR
RIFormer:在不使用 Token Mixer 功能的同时保持视觉骨干网络的有效性
本文研究如何在去除基本构建模块中的令牌混合器的同时保持视觉骨干的有效性,并提出了一个可行的优化策略,使得我们能够构建一种极其简单的视觉骨干,具有鼓舞人心的性能,同时在推理过程中享受高效性。
PDF
a year ago
Query2Label:一种简单的 Transformer 多标签分类方法
本文提出了一种简单而有效的方法来解决多标签分类问题,该方法利用 Transformer 解码器查询类标签的存在,并使用视觉骨干计算的特征图来进行后续的二进制分类,相比于以前的工作,该方法更为简单有效,对于五个多标签分类数据集,包括 MS-C
→
PDF
3 years ago
Prev
Next