利用多模式图神经网络(MM-GNN)作为一种视觉问答(VQA)方法,通过将图像表示为由三个子图组成的图形,利用场景文本中的各种信息来提高节点特征,从而显著提高需要阅读场景文本的两项 VQA 任务的性能。
Mar, 2020
通过构建大规模的带有人工注释的 PM209 数据集,本研究提出了一个多模态产品手册问答(MPMQA)任务,其要求模型处理多模态内容并提供多模态答案,并进一步提出了一种统一模型,可以同时执行这两个子任务,并实现与多个任务特定模型相当的性能。
Apr, 2023
这篇论文针对电子商务中存在的多样化需求和多模态数据问题,提出了一种基于实例级的、弱监督、跨模态的商品检索方法,在构建一个包含千万张图像 - 标题对的大型数据集 Product1M 的同时,提出了一个用于商品实例级检索的新型模型 ——CAPTURE,该模型通过多模态学习和交叉模态对比预训练来捕获多模态输入的潜在协同作用,并生成判别性特征,比多个基线模型表现更佳。
Jul, 2021
该论文采用决策级融合方法将文本和图像输入用于产品分类预测,通过训练深度神经网络和学习网络来选择输入类型,并成功地提高了大规模产品分类数据集上的准确性。
Nov, 2016
在线市场与电子商务公司中,产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统,其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法,并得出结论,通过预先训练的图像和文本编码器的相对简单的投影,通过对比学习进行训练,可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型,例如 CLIP。此外,我们展示了如何将人机协作过程与基于模型的预测相结合,实现在生产系统中接近完美的精度。
Mar, 2024
本研究旨在处理通过自然语言描述的对象分割问题,并提出了一种新的方法,将递归神经网络和卷积神经网络相结合以完全利用语言的递归本质。通过四个标准数据集的比较,我们的方法在八个任务中的六个任务中表现超越之前的方法。
Jul, 2018
该论文提出一种名为 K3M 的新方法,通过引入知识模态来进行多模态预训练,以解决实际 E-commerce 场景中的产品数据中存在的多模态噪声和缺失问题,并在真实世界的 E-commerce 数据集和一系列基于产品的下游任务上显示出明显的性能提升。
Aug, 2021
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
Mar, 2017
多模态搜索系统结合图像和文本,通过增强匹配能力、推理能力和上下文感知的查询解析和重写,提供用户与其搜索意图自然有效的交互。在 Fashion200K 数据集上,我们引入了一种新颖的多模态搜索模型,并提出了结合大型语言模型的搜索界面,以实现与用户的对话式互动和上下文考虑的搜索体验的升级,为购物助手提供了类人交互和全面的搜索体验。
Apr, 2024
提出了一种多模态属性感知的端到端多粒度多模态产品摘要方法 (M3PS),用于在电子商务中生成高质量的产品摘要,并且能够克服现有的产品摘要方法存在的问题。
Aug, 2023