FashionBERT: 跨模态检索中基于自适应损失的文本和图像匹配
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文提出了新的多模态组合方法 RTIC,通过应用卷积神经网络和时序模型的文本和图像特征,达到了在 Fashion-IQ 挑战赛中识别衣服与描述的成果。在提取了候选图像的特征后,向其添加编码后的残差,并在变型模型中采用集合策略,取得了第二名的成绩。
Jul, 2020
Pixel-BERT 是一种多模态的深度转换器,可以通过使用图像和文本数据对其进行联合学习,从而在像素和文本级别上进行语义连接,实现视觉和语言任务的更准确和彻底的连接,并解决了视觉任务中语义标签不平衡的问题。
Apr, 2020
我们提出了一个新的框架,使用基于排名的张量融合来显式学习准确的图像文本相似度函数,通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡,从而达到了优秀的匹配性能。
Aug, 2019
本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT,用于图像 - 文本联合嵌入,该模型基于 Transformer,可以将不同的模态作为输入,并建模它们之间的关系。通过多阶段的预训练策略,可以提高预训练质量,最终在图像检索和文本检索任务上获得了新的最先进结果。
Jan, 2020
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
在线市场与电子商务公司中,产品匹配是识别同一产品不同表示以提高可发现性、整理性和定价性的重要能力。我们在一个行业环境中提出了一个强大的多模态产品匹配系统,其中大规模的数据集、数据分布转移和未知领域带来了挑战。我们比较了不同的方法,并得出结论,通过预先训练的图像和文本编码器的相对简单的投影,通过对比学习进行训练,可以在成本和性能方面取得最新的结果。我们的解决方案优于单模态匹配系统和大规模预训练模型,例如 CLIP。此外,我们展示了如何将人机协作过程与基于模型的预测相结合,实现在生产系统中接近完美的精度。
Mar, 2024
通过将文本和纹理相结合,FashionTex 框架能够在无需配对数据的情况下,对服装类型和纹理模式进行语义控制,从而支持全身肖像的用户友好型时尚定制。
May, 2023
通过引入 BERT 到跨模态的环境中,本文提出了一种新的跨模态 BERT 风格的自监督学习范式,称为 Cross-BERT,通过探索相同对象 / 场景的 2D 和 3D 数据之间的隐含语义和几何关系来提高 3D 点云表示的性能,以及 BERT 在不同模态之间的传递能力。
Dec, 2023