针对面向字符级别长尾分布的场景文本识别改进

Mar, 2023

针对面向字符级别长尾分布的场景文本识别改进

Improving Scene Text Recognition for Character-Level Long-Tailed Distribution

Sunghyun Park, Sunghyo Chung, Jungsoo Lee, Jaegul Choo

TL;DR本研究提出了一种基于上下文感知模型和自由专家网络的场景文字识别系统，对字数众多的中国和韩国等语言的字符识别性能有较大提升，并且易于应用于各种场景文字识别模型。

Abstract

Despite the recent remarkable improvements in scene text recognition (STR), the majority of the studies focused mainly on the English language, which only includes few number of characters. However, STR models show a large performance degradation on languages with a numerous number of

scene text recognition long-tailed distribution contextual information cafe-net confidence ensemble method

发现论文，激发创造

多模态上下文学习使自适应场景文本识别器

Scene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Nov, 2023

通过协同专家实现图分类的长尾识别

通过协同多专家学习 (CoMe) 提出了一种新的长尾图级分类框架，从头部和尾部类的视角发展出平衡对比学习和基于难类挖掘的个体专家分类器训练，并在多专家框架中进行门控融合和解耦知识蒸馏。通过在七个广泛应用的基准数据集上进行全面实验，证明了我们的 CoMe 方法相对于现有技术基准的优势。

Aug, 2023

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022

一种基于视觉 - 语言模型的简单长尾识别基准线

BALLAD 利用对比学习方法，结合视觉感知与语言理解，实现对于长尾数据集的视觉识别，并在大量实验中获得比竞争性基线更优异的表现。

Nov, 2021

路由多样分布感知专家实现长尾识别

本文提出了一种新型的长尾分类器 RIDE，通过多个专家、分布感知多样性损失以及动态专家路由模块来减小模型方差、缩小模型偏差与尾部的差距，相较于现有的方法，在 CIFAR100-LT、ImageNet-LT 和 iNaturalist 2018 基准测试上性能提高了 5％到 7％，并可应用于各种主干网络和长尾算法，具有较高的普适性和一致性性能。

Oct, 2020

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

长尾识别的均匀分布类别原型引导视觉语言框架

研究论文提出了一种基于统一类别原型导向的视觉语言框架，用于有效缓解数据不平衡引起的特征空间偏差，并通过去除无关噪声文本和增强关键属性信息的模块提高模型的鲁棒性，同时通过类特征原型导向分类器解决学习分类器的正向偏差问题，从而在长尾学习中实现了比之前方法更优越的性能。

Aug, 2023

应对领域转移下的长尾类别分布

使用三种新的核心功能块，以及集成在元学习框架中，解决长尾分布分类和领域漂移问题，提高了领域泛化在新的目标领域上的表现。

Jul, 2022

场景文本识别的关系对比学习

通过处理上下文信息和文本关系，研究论文提出一种名为 RCLSTR 的统一框架，用于景观文本识别的关联对比学习，该框架通过重新排列、层次和交互来丰富文本关系，解决了上下文信息限制和过拟合问题，提高了表示鲁棒性。实验结果证明了该方法在表示质量上优于最先进的自监督 STR 方法。

Aug, 2023

野外文本分类：大规模长尾姓名标准化数据集

本文研究机构名称的规范化问题，针对实际数据应用中存在的长尾分布情况，提出了一个包含超过 25k 类的长尾数据集 LoT-insts1，并进行了基于搜索方法和 Bert 模型的神经网络等多种方法的基准测试及提出了一种特殊的 Bert 模型，在 few-shot 和 zero-shot 测试集上表现更好。该数据集是自然长尾且包含许多训练数据，是第一个专注于长尾和开放式分类问题的自然语言数据集。

Feb, 2023