语境增强:迈向高效准确的场景文本识别
本文旨在解决场景文字识别中的挑战性问题,通过引入 Vision Transformer,构建了一个概念简单而强大的模型,同时通过提出一种多粒度预测策略,将语言模态的信息融合到模型中,从而将每个子词表示与常规字符表示结合起来,使 STR 性能得到进一步提升。最终该算法在标准基准测试中获得了 93.35% 的平均识别准确率。
Sep, 2022
本文提出一种名为 VisionLAN 的可提升文字识别速度与精度的模型,结合视觉和语言信息的 Visual Language Modeling,以直接赋予形象模型带有语言能力,从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断,绕过视觉噪声等干扰因素。本文中的 Occlusion Scene Text 数据集通过缺失部分字符信息的数据,进一步验证了我们的模型在复杂环境下的有效性。
Aug, 2021
通过结合语言知识和视觉模型,本研究提出了一种基于 Vision Transformer 和 Multi-Granularity Prediction 的 MGP-STR 算法,用于场景文本识别,取得了优异的识别结果。
Jul, 2023
本文提出了一种创新的方法,利用大型视觉语言模型增强盲人和视力低下人士的视觉感知,提供周围环境的详细综合描述并警示潜在风险。该方法通过整合图像识别结果和用户查询,使用大型视觉语言模型根据提示生成环境的详细描述,并通过分析环境对象和场景来识别潜在风险。实验结果表明该方法能够准确识别对象并为盲人和视力低下人士提供深入的环境描述和分析。
Oct, 2023
该研究提出了一种基于图卷积网络的文本推理(GTR)方法并将其应用于场景文本识别中,该方法可以利用像素之间的空间关联来提高文本识别的性能,并在六个具有挑战性的基准测试中获得最新的最佳结果。
Dec, 2021
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
Perceiver-VL 是一个高效处理大量视觉和语言输入的框架,采用迭代潜在跨注意力技术,具有线性可扩展性和高效性,并在保持其竞争力能力的同时,在各种基准测试中取得最佳结果。
Nov, 2022
本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于 LSTM 的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的 SVT 和 ICDAR'03 场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。
Jun, 2017
在这篇论文中,我们提出了一种 Prompt-driven Visual-Linguistic Representation Learning(PVLR)框架,通过双提示策略和交互融合模块,更好地利用了语言模型的能力,以提高多标签图像识别的性能。实验证明了 PVLR 的卓越性能。
Jan, 2024