- 体育比赛视频中球衣号码识别的通用框架
介绍了一种新的公共冰球号码识别数据集,并研究了如何将场景文本识别方法应用于这个问题。研究了遮挡问题,并评估了在一个运动(冰球)上训练的模型在另一个运动(足球)上的泛化程度。演示了在图像和轨迹级任务上的高性能,冰球图像达到 91.4% 的准确 - 第一个斯瓦希里语场景文本检测与识别数据集
该研究提出了一个针对斯瓦希里语的自然场景文字检测和识别的综合数据集,并通过对不同场景文字检测和识别模型的评估,将该数据集作为斯瓦希里语的基准数据集,以评估和比较不同方法,并促进未来的研究努力。
- JSTR:判断优化场景文本识别
我们提出了一种通过判断图像和文本是否匹配来提高场景文本识别任务准确性的方法。与之前的研究关注于从输入图像生成识别结果不同,我们的方法还考虑了模型的误识别结果,以了解其错误倾向,从而改进了文本识别流程。该方法通过对模型可能误识别的数据进行预测 - IndicSTR12:印度场景文字识别数据集
在印度语言这个复杂、语法和语义上更复杂的领域,由于缺乏综合的数据集,该研究提出了最大最全面的数据集 IndicSTR12,并在 12 种主要印度语言上进行了场景文本识别的性能评估,该数据集与现有的拉丁语言的数据集规模和复杂性相当,并且其多语 - 通过伪图像标注和边际损失实现开放词汇场景文本识别
我们提出了一种新的开放词汇文本识别框架 Pseudo-OCR,用于识别现实世界应用中的 OOV 词汇,通过伪标签生成模块、语义检测机制和质量感知边界损失等手段,我们利用真实图像生成大量伪 OOV 训练数据,并在品质上进行过滤和增强,实验结果 - 高效利用语言先验进行场景文本定位
通过利用大型文本语料库中的语言知识,替换自回归场景文本定位和识别模型中传统的独热编码,提高了场景文本定位和识别性能,并实现了更准确的词语定位。
- 半监督文本识别的连续视觉和语义一致性
本文提出了一种新的半监督学习方法来进行场景文本识别(STR),该方法从视觉和语义两个方面融合了单词级一致性正则化,通过使用最短路径对齐模块以及采用强化学习框架来优化嵌入空间中预测字符串的语义相似性,实验结果表明该方法在多个标准和具有挑战性的 - 基于类别感知的文本场景识别的掩膜引导特征细化
提出了一种名为 Class-Aware Mask-guided feature refinement(CAM)的新方法来改善复杂背景、文本样式噪声等方面对场景文本识别的挑战,并通过标准字体生成规范的类感知字形掩码来增强特征区分性、设计特征对 - KDDLumos:赋予多模式 LLMs 场景文本识别能力
我们介绍了 Lumos,这是第一个具备文本理解能力的端到端多模态问答系统。Lumos 的核心是一个场景文本识别(STR)组件,用于从第一人称视角图像中提取文本,输出结果被用来增强多模态大型语言模型(MM-LLM)的输入。本文探讨了在构建 L - 指令引导的场景文本识别
多模型,场景文本识别,指导学习,跨模态学习,文本识别问题。
- CMFN: 跨模态融合网络用于不规则场景文字识别
提出了一种新颖的交叉模态融合网络(CMFN),用于不规则场景文本识别,将视觉线索融入语义挖掘过程中,实验证明该算法在性能上与最先进的算法相当,验证了其有效性。
- VIPTR:一种用于快速高效的场景文本识别的可置换视觉特征提取器
本研究提出了一种 VIPTR(VIsion Permutable extractor for fast and efficient scene Text Recognition)方法,它利用具有金字塔结构的视觉语义提取器以及多个自注意层,避 - IPAD:一种基于迭代、并行和扩散的场景文本识别网络
提出了一种使用并行和迭代解码器,并采用易先原则解码策略的替代方案,将文本识别视为基于图像的条件文本生成任务,并采用离散扩散策略,确保双向上下文信息的穷举性探索。大量实验证明,该方法在基准数据集上取得了优越的结果,包括中英文文本图像。
- STR-Cert:深度学习管道与视觉变换器上的深度文本识别的健壮性认证
我们提出了 STR-Cert,这是一种用于固定、比较 STR 模型的序列预测问题的认证方法,通过扩展 DeepPoly 多面体验证框架来证明 STR 模型的鲁棒性,并针对 Vision Transformer 模型进行了验证。
- 多模态上下文学习使自适应场景文本识别器
Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, - 利用局部特征解释场景文本识别模型
本文研究了可解释人工智能(XAI)在场景文本识别(STR)解释性方面的问题,并提出了一种新的方法 STRExp,以考虑局部解释,即个体字符预测解释。该方法在不同的 STR 数据集和 STR 模型上进行了基准测试和评估。
- MM基于 CLIP 的场景文本识别的对称语言特征提取
利用对比语言图像预训练(CLIP)模型在场景文本识别(STR)中的潜力,我们建立了一个新的对称语言特征提取框架(称为 CLIP-OCR),以充分利用 CLIP 中的视觉和语言知识。通过将 CLIP 图像编码器与反转的 CLIP 文本编码器级 - 基于众包图像实现大规模建筑属性映射:Flickr 中的场景文本识别及待解决问题
通过 Flickr 图像数据集,在众包平台上使用先前训练好的场景文本识别模型实现建筑属性映射,研究了街景图像中应用场景文本识别的挑战,发现了与该任务相关的问题和挑战,并提出发展不仅限于城市热点区域的城市范围内的映射,同时建议跨学科合作以了解 - IJCAI场景图像中的无方向中文文本识别
利用字符图像重建网络(CIRN)对纵向中文文本进行识别,通过分离内容和方向信息,提高自然场景中横向和纵向文本的识别性能。
- ICCVLISTER: 邻近解码用于长度无关的场景文字识别
文本长度的多样性是文本的一个重要特征,而现有的景区文本识别方法大多只适用于短文本或已知长度的文本,缺乏识别长文本或进行长度推断的能力。因此,本文提出了一种称为 LISTER 的长度无关的场景文本识别方法,通过使用邻居解码器和特征增强模块来解