多队列动量对比用于微视频产品检索
该研究提出了一种名为 “时尚聚焦” 的多模态检索系统的创新演示,用于自动实现准确的视频到购物匹配,该系统结合图像、文本、交互等不同模态的特征,通过视频内容的结构化和多模态检索过程实现。
Feb, 2021
本文提出了一种用于微视频流行度预测任务的多模态变分编码器解码器(MMVED)框架,其学习一个随机高斯嵌入式微视频,具有信息丰富性,同时保持内在的不确定性。通过深度变分信息瓶颈下界(IBLBO)的优化,学习的隐藏表达式对于流行度目标最具表现力,同时对微视频功能中的噪声最大压缩。此外,将贝叶斯专家乘积原理应用于多模态编码器,综合利用所有可用的模态来决定信息的保留或丢弃。在公共数据集和我们从 Xigua 收集的数据集上进行的大量实验显示出所提出的 MMVED 框架的有效性。
Mar, 2020
介绍了将 MBVR 应用于大型视频平台的实践,该方法采用人工生成的模态混洗样本和基于视觉相关性的动态边距(DM),旨在鼓励视频编码器对每种模态进行平衡关注,通过实验证明了该方法在解决模态偏见问题方面的有效性和高效性。
Apr, 2022
本研究提出了一种新颖的记忆增强嵌入学习(MEEL)方法,构建了两种记忆模块,交叉模态记忆模块和文本中心记忆模块,用于跨模态视频文本检索任务,解决了局部负样本和文本描述多样性的问题。在 MSR-VTT 和 VATEX 两个基准数据集上进行的实验表明,该方法具有很高的有效性。
Mar, 2021
本文提出一种新颖的交叉模态交互网络 (CMIN),通过语法图卷积网络,多头自注意力和多阶段跨模态交互,综合考虑语言查询的句法结构、视频上下文语义依赖关系和跨模态交互,提高了视频检索准确性。
Jun, 2019
本文提出一种基于视觉和语言两种形式的模态的互相查询网络,用于产品图像的分割,并构建了一个多模态产品分割数据集(MMPS),实验结果表明该方法显著优于现有方法。
Jun, 2023
该论文提出了一种新的多粒度感知网络 (MGPN),旨在改善视频中的时刻检索,将时刻检索建模为一种多选阅读理解任务,结合人类阅读策略,并通过优化算法提高了检索精度。
May, 2022
这篇论文针对电子商务中存在的多样化需求和多模态数据问题,提出了一种基于实例级的、弱监督、跨模态的商品检索方法,在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时,提出了一个用于商品实例级检索的新型模型 ——CAPTURE,该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用,并生成判别性特征,比多个基线模型表现更佳。
Jul, 2021
本文介绍了一种利用 YouTube-8M 数据库中视听文件间共同区域来建立联系以自主训练深度神经网络的方法,实现了跨模态特征学习的无监督方法,并得出了良好的检索结果。
Jan, 2018