IndicSTR12:印度场景文字识别数据集
本文从数据导向的角度重新评估场景文字识别(STR)。作者重新审视了 STR 中六个常用基准,并观察到性能饱和的趋势,通过 13 个代表性模型,只有 2.91%的基准图像不能被准确识别。然而,作者认为这主要是由于常见基准的挑战程度较低,从而掩盖了 STR 所面临的潜在问题。为了评估 STR 模型在更复杂的真实场景中的表现,作者整理了一个大规模的真实 STR 数据集 Union14M,包括 400 万张带标签图像和 1000 万张未标记图像。实验证明 13 个模型在 400 万张有标签图像上只能达到 66.53%的平均准确率,表明 STR 在真实场景中仍面临许多挑战。通过分析这些模型的错误模式,作者确定了 STR 领域的七个难题,并构建了一个以挑战为驱动的基准,包括八个独立子集,以促进该领域的进一步发展。作者的探索表明,STR 远未解决,并且利用数据可能是一个有希望的解决方案。在这方面,作者发现通过自监督预训练利用 1000 万个未标记图像可以显著提高 STR 模型在真实场景中的鲁棒性,并取得了最先进的性能。
Jul, 2023
本文提出了一种四阶段的场景文本识别模型框架,通过对模型组件的模块化分析,解决了训练和评估数据集的不一致性导致的性能差异问题,为现有模块的深入评估和探索提供了可能。
Apr, 2019
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准化协议、集中工具、引人入胜的问题、提示和对话场景库,以及质量控制机制和全面的转录指南。我们希望这一开源蓝图能够成为其他多语言地区数据收集工作的全面入门指南。利用 INDICVOICES,我们构建了 IndicASR,这是第一个支持印度宪法第八版中列出的 22 种语言的 ASR 模型。本研究的所有数据、工具、指南、模型和其他资料都将公开提供。
Mar, 2024
该论文介绍了为 11 种广泛使用的印度语言(阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥利亚语、旁遮普语、泰米尔语和特鲁古语)引入神经信息检索资源的工作。这些资源包括使用机器翻译创建的 11 种印度语言版本的 MSMARCO 数据集(称为 INDIC-MARCO)以及 11 种不同的单语神经信息检索模型集合(称为 Indic-ColBERT),每个模型都在 INDIC-MARCO 数据集中的一种语言上进行训练。IndicIRSuite 是为大量印度语言构建大规模神经信息检索资源的首次尝试,我们希望它能加速印度语言神经信息检索的研究。实验证明,与 INDIC-MARCO 基线相比,Indic-ColBERT 在除奥利亚语外的所有 11 种印度语言上的 MRR@10 得分平均改进了 47.47%,在 MIRACL 孟加拉语和印地语基线上的 NDCG@10 得分平均改进了 12.26%,在 Mr.Tydi 孟加拉语基线上的 MRR@100 得分改进了 20%。IndicIRSuite 可以在此 https URL 上获取。
Dec, 2023
本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化,有效地解决了合成和真实图像之间的域不一致性问题,并在多项实验中显示出稳定性和准确性,同时提高了场景文本识别模型达到了最新的最优结果,是首个成功应用一致性正则化框架于场景文本识别的方法。
Apr, 2022
通过 Flickr 图像数据集,在众包平台上使用先前训练好的场景文本识别模型实现建筑属性映射,研究了街景图像中应用场景文本识别的挑战,发现了与该任务相关的问题和挑战,并提出发展不仅限于城市热点区域的城市范围内的映射,同时建议跨学科合作以了解建筑摄影和标注背后的动机。
Sep, 2023
本文提出了 AutoSTR 来搜索依赖于数据的骨干以增强文本识别性能,实验表明,通过搜索数据依赖的骨干,AutoSTR 可以在标准基准测试中胜过最先进的方法,且 FLOPS 和模型参数更少。
Mar, 2020
ISLTranslate is introduced as the largest translation dataset for continuous Indian Sign Language, consisting of 31k ISL-English sentence/phrase pairs, which is benchmarked against a transformer-based model for ISL translation.
Jul, 2023