电子商务的无监督图像文本嵌入学习

Oct, 2023

电子商务的无监督图像文本嵌入学习

ITEm: Unsupervised Image-Text Embedding Learning for eCommerce

Baohao Liao, Michael Kozielski, Sanjika Hewavitharana, Jiangbo Yuan, Shahram Khadivi...

TL;DR通过扩展 BERT 模型，提出了一种用于学习来自不同形态的嵌入的无监督学习方法，通过构建全局表示来预测被标记的词和构造标记的图像块，该方法在搜索极其相似产品和预测产品类别的任务中相较于强基线模型获得了显著的增益。

Abstract

product embedding serves as a cornerstone for a wide range of applications in eCommerce. The product embedding learned from multiple modalities shows significant improvement over that from a single modality, sinc

product embedding multimodal learning unsupervised learning image-text embedding bert

发现论文，激发创造

在电子商务中利用 Transformer 增强图像搜索的多模态商品嵌入

在过去的十年中，人们在电子商务应用的图像搜索领域取得了重大进展。本文报告了多模式物品嵌入模型（MIEM）的设计和部署，以解决传统图像检索模型在商品多图像处理上的限制和存储负担，从而提高检索结果的准确性。在 Shopee 电子商务平台中部署后，MIEM 在图像搜索功能上实现了用户点击量的显著增长（9.90%）和用户订单量的提升（4.23%）。

Nov, 2023

使用文本驱动的软掩膜进行多模态表征学习

提出了一个自我监督学习框架中的视觉语言表示学习方法，引入了一种新的操作、损失和数据增强策略，其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征，然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域，提出了一个用于图像文本对比学习（ITC）目标的焦点损失，并进行多模态数据增强以进行自我监督学习。

Apr, 2023

ImageBERT：利用大规模弱监督图像 - 文本数据的跨模态预训练

本文提出了一种新的视觉 - 语言预训练模型 ——ImageBERT，用于图像 - 文本联合嵌入，该模型基于 Transformer，可以将不同的模态作为输入，并建模它们之间的关系。通过多阶段的预训练策略，可以提高预训练质量，最终在图像检索和文本检索任务上获得了新的最先进结果。

Jan, 2020

从网络数据中通过深度语义嵌入学习学习

本研究提出利用网络和社交媒体数据来学习多模态图像和文本嵌入，旨在将在文本领域中学到的语义知识转移至用于语义图像检索的视觉模型。研究结果表明，利用带有相关文本的图像进行无监督学习的流程能够在三个基准测试中学习五种不同的文本嵌入，并在面向文本的图像检索任务中表现出与受监督方法竞争性的性能。在目标数据中训练时，我们在 MIRFlickr 数据集中明显优于现有技术。进一步，我们展示了如何使用学习到的嵌入执行语义多模态图像检索，超越了传统的实例级检索问题。最后，我们提出了一个新的数据集（InstaCities1M），由 Instagram 图像及其相关文本组成，可用于公平比较图像 - 文本嵌入方法。

Aug, 2018

多模态命名实体识别的图像文本对齐

本文提出了一种基于图像与文本对齐的多模态命名实体识别技术，通过将图像特征与文本信息在文本空间中对齐，将两者之间的交互作用结合在一起，以此提高命名实体识别的准确性。

Dec, 2021

电子商务产品描述生成的多模态上下文调优方法

本文提出了一种新的设置，通过加入营销关键词生成与产品特点更符合的图像描述。为解决同类产品拷贝文字相似导致生成描述不准确的问题，引入了名为 ModICT 的多模态文本调整方法，通过类似产品样本作为参考，利用语言模型的上下文学习能力生成描述。实验证明，与传统方法相比，ModICT 显著提高了生成结果的准确性（Rouge-L 提升了 3.3%）和多样性（D-5 提升了 9.4%），可用于增强各种应用中自动生成产品描述的效果。

Feb, 2024

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017

学习鲁棒的视觉 - 语义嵌入

该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。

Mar, 2017

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

基于网络数据的自监督学习在多模态检索中的应用

通过利用 Web 和 Social Media 数据，本文提出一种利用多模态图像和文本嵌入的自监督学习方法，在不需要人工注释的情况下学习强大的特征，并将文本领域学到的语义知识转移至视觉模型用于语义图像检索任务。研究分析了五种不同的文本嵌入方法，表明利用 Web 和 Social Media 数据学习的嵌入具有与监督方法相当的性能，且在训练目标数据时优于最先进方法。最后，介绍了 InstaCities1M 数据集，并演示了如何利用该数据集进行语义多模态图像检索。

Jan, 2019