利用字符草图和重心变换进行无语言字符识别

MMAug, 2016

利用字符草图和重心变换进行无语言字符识别

Language free character recognition using character sketch and center of gravity shifting

Masoud Nosrati, Fakhereh Rahimi, Ronak Karimi

TL;DR本研究介绍了一种基于启发式方法的字符识别方法，利用草图和重力转移技术实现无语言限制的低复杂度字符识别，并可独立运用于实时目标检测中。在测试中，最高可达 86% 的识别率，最低为 28%。

Abstract

In this research, we present a heuristic method for character recognition. For this purpose, a sketch is constructed from the image that c

character recognition heuristic method sketch gravity shifting language-free

发现论文，激发创造

本地字符细化技术的高效场景文本定位和识别

提出了一种无限制端到端的文本定位和识别方法，采用基于区域的方法在单次检测中检测初始文本假设，并通过更强大的局部文本模型对文本假设进行优化。此外，引入了一种基于字符笔画面积估计的新特征，并使用区域距离图有效计算该特征，该特征不受缩放和旋转的影响，并允许有效地检测任何文本区域。该方法能实时运行并在 ICDAR 2013 Robust Reading 数据集上实现了最先进的文本定位和识别结果。

Apr, 2015

用于印地语在线手写字符识别的点、方向和方向动态特征的直方图

提出了一种与字符笔画方向和顺序变化无关的一组特征，用于在线手写字符识别。通过一种方法，将特征如点的坐标、点处笔画的方向以及点处笔画方向的动态在坐标值方面进行空间映射，并在空间图中的不同区域计算这些特征的直方图。通过训练分类器进行字符识别的其他研究中使用的各种特征，如时空特征、离散傅里叶变换、离散余弦变换、离散小波变换、空间特征和梯度方向直方图都被考虑。选择支持向量机（SVM）作为分类性能比较时的分类器。用于训练和测试分类器的字符数据集由 96 种不同的印地文字符的在线手写样本组成，训练数据集和测试数据集分别包含 12832 和 2821 个样本。与其他特征进行训练后，在相同测试数据集上测试的 SVM 分类器以提出的特征的 92.9% 最高分类准确率最高。因此，相比较而言，提出的特征具有更好的字符辨别能力。

Sep, 2023

字符查询：基于 Transformer 的在线手写字符分割方法

在线手写字符分割与手写识别紧密关联，但仅通过识别模型定位相关位置通常无法产生精确的分割。我们将分割与识别解耦，使得分割结果能进一步被利用。我们专注于已知转录的情况，此时字符分割变成了笔迹轨迹的采样点与文本中字符的匹配问题。受 $k$-means 聚类算法启发，我们从簇分配的角度看待它，并提出了一种基于 Transformer 的架构，在 Transformer 解码器块中使用学得的字符查询形成每个簇。为了评估我们方法的质量，我们为两个流行的在线手写数据集 IAM-OnDB 和 HANDS-VNOnDB 创建了字符分割的真值，并对它们进行了多种方法的评估，证明我们的方法达到了最佳的整体效果。

Sep, 2023

关键词检测简化：采用字符计数和 CTC 重新评分的无分割方法

最近的无分割关键词检测的研究寻求在对象检测范式中解决这一问题，并借鉴最先进的检测系统，同时提出了一个词边界框提议机制和计算相应表示。与依赖复杂和庞大的深度神经网络模型的方法相反，我们提出了一种新颖的无分割系统，通过自动学习的比例图在文档图像上高效地扫描以找到包含查询信息的矩形区域。该底层模型简单而紧凑，通过对字级别注释图像进行训练，预测矩形区域上的字符出现。通过积分图和二分搜索以经济高效的方式执行所提出的文档扫描。最后，通过金字塔表示和基于 CTC 的重新评分算法来完善字符计数的检索相似性，充分利用训练好的卷积神经网络模型。对两个广泛使用的数据集进行的实验证实表明，尽管底层模型简单，我们的方法实现了最先进的结果，超过了更复杂的替代方案。

Aug, 2023

文本检测的字符区域认知

提出了一种使用神经网络 2 来检测场景文本的新方法，在字符级别推断文本区域，采用新的关联表示法来估算字符背景。通过使用合成图像的给定字符级别注释和学习的中间模型获得的真实图像的估计字符级别地面真实性，也解决了缺少单独字符级别注释的问题，在 6 个基准测试上广泛的实验中，包括在自然图像中包含高度曲线文本，如 TotalText 和 CTW-1500 数据集，证明了我们的字符级文本检测比最先进的探测器显着优越。根据结果，我们的方法保证了在检测复杂的场景文本图像（如任意定向，曲线或变形文本）方面具有高度的灵活性。

Apr, 2019

TextCaps: 使用非常小的数据集进行手写字符识别

本文介绍了一种技术，通过加入实际的随机噪声到参数实例化中，从现有样本生成新的训练样本数据，以实现针对缺少大量标记数据的本地语言的字符识别，同时可用于物体识别等相关上下文。

Apr, 2019

基于区域采样的增强版和声搜索方法用于孟加拉手写字符识别

通过增强谐波搜索方法，提出了一种基于区域选择的技术，应用于手写字符的识别中，测试结果表明，可以在不影响识别精度的前提下，大幅减少描述性区域的数量，提高识别准确性。

May, 2016

基于骨架的步态识别的深入理解

该论文提出了一种基于 Graph Convolutional Networks（GCNs）的方法，结合高级别输入和残差网络，用于骨架轮廓图进行步态识别，实验结果显示了 3 倍于最先进技术水平和强大的视频建模能力。

Apr, 2022

一个使用全局字符层级和本地子单位级特征的印地语在线手写字符识别分类器

开发了一个分类器，用于模拟印地语在线手写字符的全局字符特征、子单位数量和本地子单位特征的联合分布。该分类器使用潜变量来模拟子单位的结构，使用点、方向和方向动态的直方图（HPOD）特征表示字符的全局字符级和本地子单位级，并且不依赖于字符的笔画顺序和方向变化。通过最大似然估计方法来估计分类器的参数。本研究考虑了其他研究中使用的不同分类器和特征，对开发的分类器进行了分类性能比较。考虑的分类器包括二阶统计（SOS）、子空间（SS）、费舍尔判别（FD）、前馈神经网络（FFN）和支持向量机（SVM），考虑的特征包括时空（ST）、离散傅立叶变换（DFT）、离散余弦变换（SCT）、离散小波变换（DWT）、空间（SP）和梯度方向直方图（HOG）。用于训练和测试开发的分类器的印地语字符数据集由 96 个不同字符类别的手写字符样本组成。训练集中有 12832 个样本，每个字符类别平均 133 个样本；测试集中有 2821 个样本，每个字符类别平均 29 个样本。与在本研究中考虑的相同训练集和测试集上从同一训练集中提取的不同特征训练并在相同测试集上评估的分类器相比，开发的分类器在测试集上具有最高的准确性，为 93.5%。

Oct, 2023

CharNet：高复杂字符分类的广义方法

手写字符识别是机器学习研究人员面临的一个具有挑战性的问题，本文提出了一种简单、可推广、高效的方法 (CharNet) 来解决字符图像分类问题，并与现有方法的性能进行了比较。

Jan, 2024