高效交叉视角视频检索的混合对比量化方法
本文提出了一种新的复合相关量化(CCQ)模型,通过最大化相关性的映射,将不同模态嵌入到连续的同构空间中,并同时学习复合量化器,将同构潜在特征转换为紧凑的二进制码,以实现高效的相似性检索。实验证明,CCQ 模型优于现有的哈希方法,可用于单模态和跨模态检索。
Apr, 2015
本文提出了一种新颖的无监督深度量化方法,名为具有代码内存的对比量化(MeCoQ),该方法通过对比学习学习无监督二进制描述符,可以更好地捕获有区别的视觉语义并避免模型退化。实验结果显示,该方法在基准数据集上优于现有最先进的方法。
Sep, 2021
本文提出了一种分层学习视频压缩(HLVC)方法,其具有三个分层质量层和一种重复增强网络。我们通过一种图像压缩方法压缩第一层帧,并使用这些帧作为参考来压缩相对高质量的第二层。然后,使用提出的单运动深度压缩(SMDC)网络压缩具有最低质量的第三层。在我们的 HLVC 方法中,分层质量有助于编解码效率,并且最终结果在 PSNR 和 MS-SSIM 方面优于 x265 的 “低延迟 P(LDP)非常快” 模式。
Mar, 2020
通过设计自信度基于的特征重建方法和周期性补偿损失,本文提出了一种新颖的高视觉保真度学习视频压缩框架 (HVFVC),以解决学习视频压缩中的重建问题和优化缺陷,实现了出色的感知质量,并仅需占最新 VVC 标准的 50% 比特率。
Oct, 2023
通过多粒度视觉特征学习和二阶段检索体系结构,本研究提出了一种在检索效果和效率之间取得平衡的文本到视频检索方法,同时在训练阶段采用了参数无关的文本门控交互块和额外的 Pearson 约束来优化跨模态表示学习,从而实现了与当前最先进方法相媲美的性能,且速度快近 50 倍。
Jan, 2024
提出一种基于 Hierarchical Graph Reasoning (HGR) 的模型,将 video-text matching 分解成全局到局部的语义层次;通过基于注意力的图推理生成层次化的文本嵌入,进而引导学习多样化和分层的视频表示,并通过整合不同的 video-text 层次的匹配来捕获全局和局部细节,从而实现视频和文本之间的交叉检索。
Mar, 2020
本论文旨在为大型 vocab 稀疏特征的推荐系统学习高度紧凑的嵌入。我们提出了不同可微的产品量化(DPQ)方法,并提出了一种多粒度量化嵌入(MGQE)技术,以更好地处理推荐系统中常见的幂律数据分布。实验结果表明,我们只需要使用原始模型大小的大约 20%,即可实现与原始模型大小相当或更好的性能。
Feb, 2020
提出了 TransClippedCLR 模型,通过编码图像的全局上下文和局部上下文,使用产品量化生成哈希码,并通过剪切对比学习避免潜在的错误负对,实现了在基准数据集(包括 CIFAR10、NUS-Wide 和 Flickr25K)上无监督图像检索的卓越性能,相较于最新的深度模型,在所有数据集上使用所提出的剪切对比学习相比于使用相同基础网络的普通对比学习,取得了显著的改善。
Jan, 2024
本文介绍了一种名为 JPQ 的联合优化方法,该方法结合了查询编码和 Product Quantization,以实现高效的 Dense Retrieval,并在两个公开的评估基准测评中获得了显着的性能提升。
Aug, 2021
通过 QUAG 探究 VideoQA Transformer 模型对于多模态结构与动态的理解,提出对于多模态 VideoQA 表示的可靠性检验,CLAVI Benchmark, 通过对反事实情景的测评,发现目前的模型在处理多模态 VideoQA 表示的亚优化方面有待改善。
Jun, 2023