颜色和纹理双管道轻量级风格转移
本研究提出了一种名为 DCD 的新型动态对比蒸馏框架,用于压缩大型 VLP 模型以改善跨模态图像文本检索(ITR)的效率和部署,其中涉及多模态对比学习、动态蒸馏等技术,实验证明在 MS-COCO 和 Flickr30K 基准上,将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。
Jul, 2022
通过可见光图像和红外热图像的融合进行物体跟踪的 RGB-T 跟踪,通过交叉模态相互提示学习的新型两流 RGB-T 跟踪架构,将此模型作为教师指导单流学生模型,通过知识蒸馏技术实现快速学习,实验证明与类似的 RGB-T 跟踪器相比,我们设计的教师模型达到了最高的精确度,而具有相当精确度的学生模型实现了比教师模型快三倍以上的推理速度。
Mar, 2024
我们提出了一个统一的单阶段 Transformer RGB-T 跟踪网络,名为 USTrack,它通过自注意机制将上述三个阶段统一到一个 ViT(Vision Transformer)主干中,并利用模态之间的相互作用提取融合特征,增强预测的目标 - 背景区分度,同时通过模态可靠性的特征选择机制改善跟踪性能。通过在三个流行的 RGB-T 跟踪基准上进行广泛实验,证明我们的方法在保持最快推理速度 84.2FPS 的同时,实现了新的最先进性能,特别是在 VTUAV 数据集的短期和长期子集上,MPR/MSR 分别增加了 11.1% 和 11.3%。
Aug, 2023
我们提出了一种新的对称多模态跟踪框架 SDSTrack,通过轻量级适应和补充掩膜路径蒸馏策略,提高了跟踪器在复杂环境中的鲁棒性,并在各种多模态跟踪场景中表现出优异结果。
Mar, 2024
本研究提出利用跨模态蒸馏技术从大量无标签 RGB-TIR 数据中提炼 TIR 模态的目标表示,作为热红外追踪的优化方法,并利用 RGB 和 TIR 图像中的语义信息进行 “蒸馏损失” 的监督学习,成功地推广到 LSOTB-TIR 和 PTB-TIR 数据集中,比基线跟踪器的绝对增益显著。
Jul, 2021
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用 100 个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
Aug, 2023
本文提出了隐式双域卷积网络 (IDCN),该网络利用了像素位置标签映射和量化表作为输入,采用双域校正单位 (DCU) 作为基本组件,在 DRU 中引入了密集块以提高性能,并通过隐式双域转换能够处理彩色图像。DCN 相对于现有方法表现更为优越,IDCN-f 能够在性能损失较小的情况下处理更广泛的压缩质量范围,并表现出很大的实用潜力。
Oct, 2018
本文提出了一种基于双重对比规范化和谱归一化的新型无配对图像翻译框架(SN-DCR),以保持全局结构和纹理的一致性,提高生成图像的全局结构和纹理信息,并证明该方法在多个任务上实现了 SOTA。
Apr, 2023
本研究提出了一个转移不同模态之间图像监督的技术,使用来自有标签模态的表示作为监督信号,训练适用于新的未标注配对模态的表示,实现了对未标注模态的丰富表示的学习,可用作具有有限标记数据的新模态的预训练过程
Jul, 2015
跨模态蒸馏是一个重要主题,用于包含有限知识的数据模态,如深度图和高质量素描。我们提出了一个基于对比学习的跨模态对比蒸馏(CMCD)的通用框架,该框架利用正负对应关系更好地蒸馏可泛化的特征,并在实验结果和收敛分析中验证了源模态和目标模态之间的距离对目标模态下游任务的测试误差有着显著影响。
May, 2024