T-VSE: 基于 Transformer 的视觉语义嵌入

CVPRMay, 2020

T-VSE: 基于 Transformer 的视觉语义嵌入

T-VSE: Transformer-Based Visual Semantic Embedding

Muhammet Bastan, Arnau Ramisa, Mehmet Tek

TL;DR本文研究了基于 Transformer 模型的跨模态图文检索问题，发现在大规模电商产品数据集上，相比于 RNN 等传统语言模型以及简单的平均词向量模型，基于 Transformer 的跨模态嵌入表现更加优秀。

Abstract

transformer models have recently achieved impressive performance on nlp tasks, owing to new algorithms for self-supervised pre-training on

transformer models nlp pre-training cross-modal embeddings e-commerce

发现论文，激发创造

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

快与慢的思考：利用 Transformer 进行高效的文本 - 图像检索

本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索，并将两种方法相结合，提高了检索准确性并确保了可扩展性，同时还引入了新的细粒度跨注意力架构，并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型，并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。

Mar, 2021

基于 Transformer 的大语料库语义相似度分析的认知研究

本文利用传统技术和转换器技术对美国专利短语进行语义相似性分析和建模，并对 Decoding Enhanced BERT（DeBERTa）的四种不同变体进行实验，在此基础上通过 K 次交叉验证提高性能，实验结果表明我们的方法比传统技术更具有优越性，平均 Pearson 相关系数为 0.79。

Jul, 2022

用于图像和文本分类的监督多模式双向转换器

该研究介绍了一种监督式多模态双向 Transformer 模型，该模型融合了文本编码器和图像编码器的信息，并在各种多模态分类基准任务上获得了最先进的性能。

Sep, 2019

图像不会骗人：将深度视觉语义特征传递到大规模多模态学习中的排序

本文介绍了一种多模式学习排序模型，它将传统特征和来自深度卷积神经网络的视觉语义特征相结合，用于电子商务中的搜索结果排序。在 Etsy 线上商场的大规模实验中，我们验证了多模式表示显著提高了排名质量，并展示了图像信息成功解开了文本模型难以区分的高度不同物品对的面纱。

Nov, 2015

视觉 - 语言预训练模型综述

本文综述了视觉 - 语言预训练模型在多模态学习上的进展，介绍了编码图像、文本信息的方法，分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务，并提出了未来的研究方向。

Feb, 2022

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

跨模态图像 - 文本联合嵌入的网络监督检索

文章提出了利用网络图像及对应标签实现鲁棒视觉 - 语义联合嵌入学习的方法，通过在有限的训练数据中引入弱标注的网络图像能够取得比当前最先进方法更显著的图像 - 文本检索性能提升。

Aug, 2018

通过图像文本转换实现更好文本理解

本文探讨了将视觉信息与文本表示相结合的模型，通过 comprehensive ablation studies，我们提出了一种简单但表现突出的架构，相对于其他的 multimodal approaches，在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时，也改进了与图像相关的文本数据集的最新成果。

May, 2017

用 Transformer 掌握文本到图像生成的技巧 ——CogView

提出了一个使用 4 亿多参数的 Transformer 模型 CogView 以及 VQ-VAE 分词器解决通用领域文本到图像生成问题，并展示了细调策略和预训练稳定化方法，CogView 在模糊的 MS COCO 数据集上实现了最优性能，胜过以前基于 GAN 的模型和最近的 DALL-E 相似作品。

May, 2021