关键词modality-specific prompts
搜索结果 - 2
- 增强可见 - 红外人体重新识别:模态和实例感知视觉提示学习
可见 - 红外人员重新识别的关键是利用模态感知和实例感知的视觉提示网络,建立在 Transformer 架构上,利用模态特定提示和个体特定提示以提高鉴别能力,并在 SYSU-MM01 和 RegDB 数据集上验证了其有效性。
- AllSpark: 一个多模态时空总体模型
通过引入语言参考框架 (LaRF) 和 AllSpark 模型,将多模态时空数据的联合解释问题化为在各模态之间达成连贯性和自主性之间的权衡,并且实验结果表明 AllSpark 在 RGB 和轨迹等模态上相比最先进模型具有竞争力的准确度。