多模态上下文学习使自适应场景文本识别器

Nov, 2023

多模态上下文学习使自适应场景文本识别器

Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer

Zhen Zhao, Can Huang, Binghong Wu, Chunhui Lin, Hao Liu...

TL;DRScene text recognition (STR) in the wild faces challenges due to domain variations, font diversity, shape deformations, etc. Recent studies show that large language models (LLMs) can learn from a few demonstration examples using In-Context Learning (ICL). However, applying LLMs as a text recognizer is resource-consuming. To address this, the paper introduces E$^2$STR, a STR model trained with context-rich scene text sequences, demonstrating effective ICL capabilities with a regular-sized model and outperforming fine-tuned approaches.

Abstract

scene text recognition (STR) in the wild frequently encounters challenges when coping with domain variations, font diversity, shape deformations, etc. A straightforward solution is performing model fine-tuning tailored to a specific scenario, but it is computationally intensive and req

scene text recognition in-context learning large language models e$^2$str training-free adaptation

发现论文，激发创造

指令引导的场景文本识别

多模型，场景文本识别，指导学习，跨模态学习，文本识别问题。

Jan, 2024

遮盖和置乱隐式上下文学习用于场景文本识别

本文提出了一种利用语言信息来增强场景文本识别模型鲁棒性的方法，通过将 Masked Language Modeling (MLM) 和 Permuted Language Modeling (PLM) 结合到一个单一解码体系结构中，引入特定数量的掩码标记来集成 MLM，实验结果表明，该模型在标准基准测试中使用 AR 和 NAR 解码程序均获得了最先进的性能。

May, 2023

场景文本识别的关系对比学习

通过处理上下文信息和文本关系，研究论文提出一种名为 RCLSTR 的统一框架，用于景观文本识别的关联对比学习，该框架通过重新排列、层次和交互来丰富文本关系，解决了上下文信息限制和过拟合问题，提高了表示鲁棒性。实验结果证明了该方法在表示质量上优于最先进的自监督 STR 方法。

Aug, 2023

走向更统一的上下文视觉理解

我们提出了一种新的具有多模态输出功能的视觉理解的上下文学习框架，通过将文本和视觉提示量化和嵌入到统一的表示空间中，并采用仅具有解码器的稀疏 Transformer 架构在其上执行生成建模。实验结果表明，我们的模型在统一的多模态管线中实现了与专门模型和先前上下文学习基准模型相竞争的性能。总体而言，我们的研究在统一多模态上下文学习方面迈出了进一步的一步。

Dec, 2023

多标签文本分类的上下文学习

利用预训练的密集检索模型，我们在有限样本设置中的常见意图分类数据集上，以及特定情况下的细粒度情感分类中，优于微调性能。通过多个实验，我们分析了模型对于上下文示例和不同模型规模的利用情况，并展示了在不同领域中需要不同程度上下文示例的相似性、类名的语义内容和示例与标签之间的正确对应。

Sep, 2023

面向视觉与语言模型的多模态上下文学习

通过对一些最先进的 VLM（Visual Language Model）进行分析，我们发现它们在执行 ICL（In-Context Learning）指令时存在一定的不足。为了验证这个猜想，我们提出了一种简单但令人惊讶地有效的策略，通过扩展一个常见的 VLM 对齐框架，实现 ICL 支持、方法和课程设置。我们探讨、分析并提供了对有效数据混合的见解，从而显著提升了 21.03% 的 ICL 表现（平均 11.3%），超过了最强 VLM 基线和多种 ICL 基准，并为 VLM 的 ICL 评估贡献了新的基准，并讨论了它们相对于现有技术的优势。

Mar, 2024

多语言场景文字识别中的跨语言学习

我们研究多语种场景文本识别的跨语言学习，并发现重要的条件是高资源语言的数据集大小，无论高资源语言的种类如何。

Dec, 2023

多模态上下文学习的关键是什么？

通过对大型多模态模型的多模态 ICL 的研究，我们发现 M-ICL 主要依赖于文本驱动机制，几乎不受图像模态的影响。当与高级 ICL 策略（如 RICES）一起使用时，M-ICL 并不比基于大多数投票的上下文示例简单策略更好，此外，我们还发现了几种 M-ICL 的偏见和局限性，值得在部署之前考虑。

Apr, 2024

将场景文本识别器的性能极限推至无需人工注释

本文介绍了一种利用合成数据和大量真实未标记图像的半监督框架来提高场景文本识别模型性能的方法。该框架基于鲁棒的一致性正则化，有效地解决了合成和真实图像之间的域不一致性问题，并在多项实验中显示出稳定性和准确性，同时提高了场景文本识别模型达到了最新的最优结果，是首个成功应用一致性正则化框架于场景文本识别的方法。

Apr, 2022

CLIP4STR: 使用预训练视觉语言模型的场景文本识别的简单基线

介绍了 CLIP4STR，一种基于 CLIP 的简单而有效的场景文字识别方法，通过图像和文本编码器构建，具有双预测和精炼解码机制。实验表明，该方法在 11 个 STR 基准测试中达到了最新的最佳性能。

May, 2023