针对面向字符级别长尾分布的场景文本识别改进
Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.
Nov, 2023
通过协同多专家学习 (CoMe) 提出了一种新的长尾图级分类框架,从头部和尾部类的视角发展出平衡对比学习和基于难类挖掘的个体专家分类器训练,并在多专家框架中进行门控融合和解耦知识蒸馏。通过在七个广泛应用的基准数据集上进行全面实验,证明了我们的 CoMe 方法相对于现有技术基准的优势。
Aug, 2023
本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化,有效地解决了合成和真实图像之间的域不一致性问题,并在多项实验中显示出稳定性和准确性,同时提高了场景文本识别模型达到了最新的最优结果,是首个成功应用一致性正则化框架于场景文本识别的方法。
Apr, 2022
本文提出了一种新型的长尾分类器 RIDE,通过多个专家、分布感知多样性损失以及动态专家路由模块来减小模型方差、缩小模型偏差与尾部的差距,相较于现有的方法,在 CIFAR100-LT、ImageNet-LT 和 iNaturalist 2018 基准测试上性能提高了 5%到 7%,并可应用于各种主干网络和长尾算法,具有较高的普适性和一致性性能。
Oct, 2020
本文提出了一种新的多跨度架构,通过一种新的循环长短期上下文(LSRC)网络,显式地模拟本地(短期)和全局(长期)上下文,分别模拟短期和长期的上下文信息,用于语言模型任务。
Aug, 2017
研究论文提出了一种基于统一类别原型导向的视觉语言框架,用于有效缓解数据不平衡引起的特征空间偏差,并通过去除无关噪声文本和增强关键属性信息的模块提高模型的鲁棒性,同时通过类特征原型导向分类器解决学习分类器的正向偏差问题,从而在长尾学习中实现了比之前方法更优越的性能。
Aug, 2023
通过处理上下文信息和文本关系,研究论文提出一种名为 RCLSTR 的统一框架,用于景观文本识别的关联对比学习,该框架通过重新排列、层次和交互来丰富文本关系,解决了上下文信息限制和过拟合问题,提高了表示鲁棒性。实验结果证明了该方法在表示质量上优于最先进的自监督 STR 方法。
Aug, 2023
本文研究机构名称的规范化问题,针对实际数据应用中存在的长尾分布情况,提出了一个包含超过 25k 类的长尾数据集 LoT-insts1,并进行了基于搜索方法和 Bert 模型的神经网络等多种方法的基准测试及提出了一种特殊的 Bert 模型,在 few-shot 和 zero-shot 测试集上表现更好。该数据集是自然长尾且包含许多训练数据,是第一个专注于长尾和开放式分类问题的自然语言数据集。
Feb, 2023