场景文本识别的视觉语义变换器

Dec, 2021

Visual-Semantic Transformer for Scene Text Recognition

Xin Tang, Yongquan Lai, Ying Liu, Yuanyuan Fu, Rui Fang

TL;DR本文提出了一种 Visual-Semantic Transformer 的模型，通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息，然后将语义信息和视觉特征序列组合成伪多域序列，进而通过交互模块增强视觉特征和语义信息之间的相互作用，从而实现文本识别。实验结果表明，该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。

Abstract

Modeling semantic information is helpful for scene text recognition. In this work, we propose to model semantic and visual information jointly with a visual-semantic transformer (VST). The VST first explicitly ex

text recognition visual-semantic transformer transformer module interaction module state-of-the-art

发现论文，激发创造

联合视觉语义推理：多阶段文本识别解码器

通过引入语义信息，该论文提出了一种基于多级多尺度注意力解码器的视觉 - 语义推理方法，使用以往的视觉特征进行预测并使用多级注意力进行精细化的预测，获得了比现有技术达到了更好的性能。

Jul, 2021

视觉语义提高了场景文本识别中的文本推理水平

该研究提出了一种基于图卷积网络的文本推理（GTR）方法并将其应用于场景文本识别中，该方法可以利用像素之间的空间关联来提高文本识别的性能，并在六个具有挑战性的基准测试中获得最新的最佳结果。

Dec, 2021

VST++：高效且更强力的视觉显著性 Transformer

我们提出了一种名为 VST++ 的有效且强大的模型，以更低的计算成本实现了比现有方法更好的性能，同时突出了其潜力。

Oct, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

基于视觉 Transformer 的图像描述故事模型

该研究提出了一种基于 Vision Transformer 的模型来描述图像集，借助双向 LSTM 和注意力机制来捕捉图像的上下文信息和语义关系，模型在 Visual Story-Telling 数据集上的表现明显超过了目前的最先进模型。

Oct, 2022

一种辅助引入语义信息的多模态视觉编码模型

基于刺激图像和相关文本信息的多模态视觉信息编码网络模型，将口头语义信息作为新信息嵌入视觉编码模型，通过 Transformer 网络对图像和文本特征信息进行对齐，构建多模态特征空间。实验结果表明该模型的性能优于先前的模型，并且消融实验证明我们提出的模型更好地模拟了大脑的视觉信息处理。

Aug, 2023

SEED: 场景文本识别的加强语义编码器 - 解码器框架

本研究提出了一种基于编码器 - 解码器框架的语义增强模型来识别低质量的场景文本，它使用显式的全局语义信息，并将现有的 ASTER 方法作为示例，实验证明了该模型对低质量文本图像更加鲁棒，并在多个基准数据集上取得了最先进的结果。

May, 2020

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

提出了 3D-VisTA，一个用于 3D 视觉和文本对齐的预训练 Transformer 模型，可轻松适应各种下游任务，通过在 ScanScribe 数据集上进行预训练，获得了在各种 3D-VL 任务上的最先进结果，同时展示了出色的数据效率。

Aug, 2023

基于渐进语义引导的视觉变形器用于零样本学习

我们提出了一种用于零样本学习的渐进式语义引导视觉 Transformer（ZSLViT），通过语义嵌入令牌学习改进视觉 - 语义对应关系，发现语义相关的视觉令牌，并且通过弱语义 - 视觉对应关系融合来舍弃与语义无关的视觉信息，从而在零样本学习中实现准确的视觉 - 语义交互作用，我们的 ZSLViT 在 CUB、SUN 和 AWA2 等三个常用基准数据集上取得了显著的性能提升。

Apr, 2024