指令引导的场景文本识别
Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.
Nov, 2023
该文章提出了一种半监督的多模态文本识别方法(SemiMTR),通过使用自监督学习和监督学习相结合的单一阶段,将现有的多模态场景文本识别方法拓展到了未标注数据的应用。该算法利用对视觉模型的预训练和语言模型的微调,同时在每个模态单独地应用连续性正则化方法进行训练,取得了在多个场景文本识别基准测试上的最新成果。
May, 2022
该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023
该论文提出了一种场景图增强的图像 - 文本学习框架,其中利用视觉场景图结构进行常识推理,通过多跳图变压器实现模型结构的正则化,引入了一种利用文本注释进行域相关的视觉场景图训练和生成的弱监督学习方法并在 VCR 和其他任务中进行了广泛的实验,发现其显着提高了性能并证明了每个提出的组件的有效性。
Dec, 2021
本文旨在解决场景文字识别中的挑战性问题,通过引入 Vision Transformer,构建了一个概念简单而强大的模型,同时通过提出一种多粒度预测策略,将语言模态的信息融合到模型中,从而将每个子词表示与常规字符表示结合起来,使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。
Sep, 2022
本文采用图卷积网络结合场景文本实例和显著图像区域进行多模态推理,在 Con-Text 和 Drink Bottle 数据集中,在细粒度图像分类和图像检索任务中显著优于之前的最新技术。
Sep, 2020
通过用生成式变压器填补缺失的视觉数据,我们提出了一个简单但有效的多模态学习框架 GTI-MM,以增强数据效率和模型的鲁棒性,尤其是对于缺少视觉模态的情况。我们在多个多模态数据集上进行了全面的分析,包括模型的训练,结果显示合成图像有助于训练数据的效率,并提高在训练和测试中缺失视觉数据的模型的鲁棒性。此外,我们证明了 GTI-MM 对于生成数量较低和简单提示技术也是有效的。
Feb, 2024
本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架,将粗粒度和细粒度表示学习结合到一个统一的框架中,并提出了一种名为同步多模态对比损失的新型训练目标,通过混合全局和本地跨模态相似性的两个阶段的推理方法,实现了与代表性最新方法相比极低的推理时间下,实现了最先进的检索表现。
Jun, 2023
本文提出了一个新的数据集,使得可以探索图像包含场景文本实例时的交叉检索。我们提出了几种方法,其中包括更好的场景文本感知交叉检索方法,它使用了来自标题和视觉场景文本的专门表示,并将它们调和在一个公共嵌入空间中。大量实验证实了这些方法从场景文本中受益,并突出了值得进一步探索的有趣研究问题。本文中提出的数据集和代码可在 http URL 中获得。
Dec, 2020