IndicSTR12：印度场景文字识别数据集

Mar, 2024

IndicSTR12：印度场景文字识别数据集

IndicSTR12: A Dataset for Indic Scene Text Recognition

Harsh Lunia, Ajoy Mondal, C V Jawahar

TL;DR在印度语言这个复杂、语法和语义上更复杂的领域，由于缺乏综合的数据集，该研究提出了最大最全面的数据集 IndicSTR12，并在 12 种主要印度语言上进行了场景文本识别的性能评估，该数据集与现有的拉丁语言的数据集规模和复杂性相当，并且其多语言性将促进鲁棒的文本检测和识别模型的发展。

Abstract

The importance of scene text recognition (STR) in today's increasingly digital world cannot be overstated. Given the significance of STR, data intensive deep learning approaches that auto-learn feature mappings have primarily driven the development of STR solutions. Several benchmark d

scene text recognition indian languages dataset benchmarking multilingualism

发现论文，激发创造

重访场景文本识别：基于数据的视角

本文从数据导向的角度重新评估场景文字识别（STR）。作者重新审视了 STR 中六个常用基准，并观察到性能饱和的趋势，通过 13 个代表性模型，只有 2.91％的基准图像不能被准确识别。然而，作者认为这主要是由于常见基准的挑战程度较低，从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现，作者整理了一个大规模的真实 STR 数据集 Union14M，包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53％的平均准确率，表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式，作者确定了 STR 领域的七个难题，并构建了一个以挑战为驱动的基准，包括八个独立子集，以促进该领域的进一步发展。作者的探索表明，STR 远未解决，并且利用数据可能是一个有希望的解决方案。在这方面，作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性，并取得了最先进的性能。

Jul, 2023

仅使用真实数据集进行场景文本识别会发生什么？朝着少标注的场景文本识别

该研究表明，使用真实标注的数据可以训练文字识别模型，并提出数据增强和半自监督方法来进一步提高性能。

Mar, 2021

场景文本识别模型比较所存在的问题：数据集与模型分析

本文提出了一种四阶段的场景文本识别模型框架，通过对模型组件的模块化分析，解决了训练和评估数据集的不一致性导致的性能差异问题，为现有模块的深入评估和探索提供了可能。

Apr, 2019

IndicVoices：为印度语言构建一个包容性的多语言语音数据集

我们提供了 INDICVOICES 数据集，该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音，涵盖了 145 个印度地区和 22 种语言。通过本文，我们分享了捕捉印度文化、语言和人口多样性的旅程，为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库，以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES，我们构建了 IndicASR，这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。

Mar, 2024

场景文本识别的数据增强

该论文使用 STRAug 增强模型，包含 36 个针对场景文本图像属性的图像增强函数，有效地提高了模型对正常和不规则测试数据集的准确度。

Aug, 2021

IndicIRSuite：印度语言的多语种数据集和神经信息模型

该论文介绍了为 11 种广泛使用的印度语言（阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语）引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集（称为 INDIC-MARCO）以及 11 种不同的单语神经信息检索模型集合（称为 Indic-ColBERT），每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试，我们希望它能加速印度语言神经信息检索的研究。实验证明，与 INDIC-MARCO 基线相比，Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%，在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%，在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。

Dec, 2023

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022

基于众包图像实现大规模建筑属性映射：Flickr 中的场景文本识别及待解决问题

通过 Flickr 图像数据集，在众包平台上使用先前训练好的场景文本识别模型实现建筑属性映射，研究了街景图像中应用场景文本识别的挑战，发现了与该任务相关的问题和挑战，并提出发展不仅限于城市热点区域的城市范围内的映射，同时建议跨学科合作以了解建筑摄影和标注背后的动机。

Sep, 2023

AutoSTR: 场景文本识别高效骨干网络搜索

本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能，实验表明，通过搜索数据依赖的骨干，AutoSTR 可以在标准基准测试中胜过最先进的方法，且 FLOPS 和模型参数更少。

Mar, 2020

ISLTranslate：印度手语翻译数据集

ISLTranslate is introduced as the largest translation dataset for continuous Indian Sign Language, consisting of 31k ISL-English sentence/phrase pairs, which is benchmarked against a transformer-based model for ISL translation.

Jul, 2023