多队列动量对比用于微视频产品检索

WSDMDec, 2022

多队列动量对比用于微视频产品检索

Multi-queue Momentum Contrast for Microvideo-Product Retrieval

Yali Du, Yinwei Wei, Wei Ji, Fan Liu, Xin Luo...

TL;DR通过提出 MQMC 网络，该文首次尝试探索多模式和多模态实例之间的检索问题，为商家提供了新的电子商务渠道，并成功地解决了微视频记录的挑战，取得了优秀的性能结果。

Abstract

The booming development and huge market of micro-videos bring new e-commerce channels for merchants. Currently, more micro-video publishers prefer to embed relevant ads into their →

micro-videos e-commerce product retrieval mqmc network multi-modal

发现论文，激发创造

时尚聚焦：多模态检索系统用于电子商务中视频商品本地化

该研究提出了一种名为 “时尚聚焦” 的多模态检索系统的创新演示，用于自动实现准确的视频到购物匹配，该系统结合图像、文本、交互等不同模态的特征，通过视频内容的结构化和多模态检索过程实现。

Feb, 2021

利用多模态变分编码器 - 解码器框架预测微视频的受欢迎程度

本文提出了一种用于微视频流行度预测任务的多模态变分编码器解码器（MMVED）框架，其学习一个随机高斯嵌入式微视频，具有信息丰富性，同时保持内在的不确定性。通过深度变分信息瓶颈下界（IBLBO）的优化，学习的隐藏表达式对于流行度目标最具表现力，同时对微视频功能中的噪声最大压缩。此外，将贝叶斯专家乘积原理应用于多模态编码器，综合利用所有可用的模态来决定信息的保留或丢弃。在公共数据集和我们从 Xigua 收集的数据集上进行的大量实验显示出所提出的 MMVED 框架的有效性。

Mar, 2020

视频检索的模态平衡嵌入

介绍了将 MBVR 应用于大型视频平台的实践，该方法采用人工生成的模态混洗样本和基于视觉相关性的动态边距（DM），旨在鼓励视频编码器对每种模态进行平衡关注，通过实验证明了该方法在解决模态偏见问题方面的有效性和高效性。

Apr, 2022

跨模态视频文字检索的记忆增强嵌入学习

本研究提出了一种新颖的记忆增强嵌入学习（MEEL）方法，构建了两种记忆模块，交叉模态记忆模块和文本中心记忆模块，用于跨模态视频文本检索任务，解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明，该方法具有很高的有效性。

Mar, 2021

视频中基于查询的时刻检索的跨模态交互网络

本文提出一种新颖的交叉模态交互网络 (CMIN)，通过语法图卷积网络，多头自注意力和多阶段跨模态交互，综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互，提高了视频检索准确性。

Jun, 2019

多模态产品图像分割的互查询网络

本文提出一种基于视觉和语言两种形式的模态的互相查询网络，用于产品图像的分割，并构建了一个多模态产品分割数据集（MMPS），实验结果表明该方法显著优于现有方法。

Jun, 2023

多粒度感知网络用于视频中的时刻检索

该论文提出了一种新的多粒度感知网络 (MGPN)，旨在改善视频中的时刻检索，将时刻检索建模为一种多选阅读理解任务，结合人类阅读策略，并通过优化算法提高了检索精度。

May, 2022

Product1M：通过跨模态预训练实现弱监督实例级产品检索

这篇论文针对电子商务中存在的多样化需求和多模态数据问题，提出了一种基于实例级的、弱监督、跨模态的商品检索方法，在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时，提出了一个用于商品实例级检索的新型模型 ——CAPTURE，该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用，并生成判别性特征，比多个基线模型表现更佳。

Jul, 2021

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

视频和音频检索的跨模态嵌入

本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法，实现了跨模态特征学习的无监督方法，并得出了良好的检索结果。

Jan, 2018