基于 CNN 和训练动态的自动文本识别

May, 2024

基于 CNN 和训练动态的自动文本识别

Automated Text Identification Using CNN and Training Dynamics

Claudiu Creanga, Liviu Petrisor Dinu

TL;DR使用 Data Maps 对 AuTexTification 数据集进行建模和表征，通过训练过程中个体样本的行为洞察（训练动态）。我们通过自信度、可变性和正确性这三个维度表征样本，发现有三个区域：易学习、模糊和难学习的样本。我们使用经典的 CNN 架构发现仅在模糊样本子集上训练模型可以提高模型的分布外泛化能力。

Abstract

We used data maps to model and characterize the autextification dataset. This provides insights about the behaviour of individual samples during training across epochs (→

data maps autextification dataset training dynamics cnn architecture out-of-distribution generalization

发现论文，激发创造

数据集制图：利用训练动态映射和诊断数据集

使用 Data Maps 工具基于模型的训练动态量化和诊断数据集。实验结果表明，数据地图揭示了数据集中的模糊、易于学习和难以学习的区域，这些发现对于构建健壮的模型和提高分布外泛化能力非常重要。

Sep, 2020

卷积神经网络中的文本映射集成，用于不同文本类别的区域检测

提出了一种新技术，将外观和文本结合在卷积神经网络 (CNN) 中，以便检测不同文本类别的区域。该技术通过一种名为 text-map 的新的文本语义视觉表示与实际图像相集成，针对商品编码的文本类别如配料或营养成分的多种类型的标识具有优异性能，采用 OCR 识别技术为预处理。针对 Nielsen Brandbank 的自有数据集，实验结果表明，该方法优于仅基于外观的标准 Faster R-CNN 等最先进的算法，精确率和召回率均得到了显著提高。

May, 2019

新闻报道：通过图像和文本处理进行文章注释

本文提出了一种新颖的深度学习方法，适用于解决文字描述与图片内容松散相关的情况。这种方法在多任务和迁移学习中表现良好，可以有效地检测图片来源、预测热度、插图以及文章地理位置等问题。同时，研究人员构建了一个新的语料库以供研究者使用。研究表明，该方法在新闻文章的领域中具有很强的实用性。

Mar, 2016

基于文本注意力的卷积神经网络用于场景文本检测

本文提出了一种基于卷积神经网络的文本 - 卷积神经网络 (Text-CNN) 用于场景文本检测的系统，并通过多层和丰富的监督信息，包括文本区域掩模、字符标签和二分类文本 / 非文本信息来训练 Text-CNN 以提高其判别效能和鲁棒性。最终，该方法在 ICDAR 2013 数据集上取得了很好的效果。

Oct, 2015

使用卷积神经网络综合动态纹理

使用卷积神经网络的特征表示来计算时空统计量，并提出一种参数化的模型，能够合成新的动态纹理样本并预测简单电影中的运动。

Feb, 2017

从零开始的文本理解

文章说明了我们可以应用深度学习来理解文本，从字符级到抽象文本概念，使用时间卷积网络 (ConvNets)。我们将 ConvNets 应用于各种大规模数据集，包括本体分类，情感分析和文本分类。我们展示了时间 ConvNets 可以在不需要任何人类语言的词语，短语，句子或任何其他句法或语义结构的知识下实现惊人的性能。证据表明，我们的模型可以用于英文和中文。

Feb, 2015

主动判别式文本表示学习

在文本分类任务中，我们提出了一种新的基于卷积神经网络（CNNs）的主动学习方法。我们的方法侧重于选择具有最大影响的实例，以快速学习区分性的任务特定嵌入，并得出良好的实验结果，是首次在使用神经模型进行文本分类的主动学习方面的工作。

Jun, 2016

基于全卷积网络的多方向文本检测

该研究提出了一种使用全卷积神经网络对自然图像中的文本进行检测的新方法，通过综合考虑本地和全局线索，以分层的方式定位文本线。通过组合显著地图和字符组件来估计文本行假设，并使用另一个卷积神经网络分类器预测每个字符的质心，以去除误判。该方法适用于处理多个方向、语言和字体的文本。在三个文本检测基准测试 MSRA-TD500、ICDAR2015 和 ICDAR2013 的性能方面，该方法实现了最先进的性能。

Apr, 2016

DNN 文本分类的有效标签噪声模型

本文提出了一种训练深度网络抵抗标签噪声的方法，通过引入非线性处理层（噪声模型）来将标签噪声的统计模型化到卷积神经网络中，通过实验证明这种方法使得 CNN 可以学习到更好的句子表示，即使在极端的标签噪声情况下仍然很稳健。同时，本文发现正确的噪声模型初始化和正则化对训练结果至关重要，而和图像分类不同的是，改变 batch size 并不会对分类性能有明显影响。

Mar, 2019

卷积神经网络实现准确、高效、无限制的文字识别

文章提出了一种数据高效，端到端的神经网络模型用于通用的非受限文本识别，并通过在七个公共数据集上达到最优结果，表明了这种模型的通用性和优越性。

Dec, 2018