- 复杂且较长的静态手写文字的书写顺序恢复
从静态图像中恢复复杂且较长的手写轨迹的顺序是一项具有挑战性的任务,本文介绍了一种估算细化的静态轨迹顺序恢复的新系统,并通过一系列实验展示了竞争性结果,旨在为后续应用提供可行的轨迹恢复。
- 重温 N-Gram 模型:对手写文本识别现代神经网络的影响
该研究探讨了在手写识别领域中,深度神经网络结构集成显式 n-gram 语言模型是否能提高性能,结果表明,结合字符或子词的 n-gram 模型能显著改善自动文本识别系统在多个数据集上的性能,挑战了仅仅使用深度学习模型就能够达到最优性能的观点, - SAGHOG:自监督自编码器生成 HOG 特征进行作家检索
介绍了 SAGHOG,一种使用二值化输入图像的 HOG 特征进行自监督预训练的书写者检索策略。通过应用 'Segment Anything' 技术从各种数据集中提取手写文本,利用预训练的视觉转换器对手写文本的掩码补丁进行重构来进行预处理。然 - 关于深度学习技术及其在手写识别中的应用范围的综述
深度学习在手写识别领域的现有研究成果进行了调查,尽管深度学习方法在加快速度和提供准确结果方面取得了显著进展,但根据文献综述,目前的研究发现深度学习仍需解决许多挑战,尤其是在数据标注方面存在问题。然而,手写识别研究预见到深度学习将在图像处理、 - 在大型视觉语言模型中表示在线手写体以进行识别
通过研究在线手写识别与 VLM(视觉 - 语言模型)的结合,该论文提出了一种新颖的数字墨迹令牌化表示方法,该方法在多个公共数据集上呈现与最先进的在线手写识别器可比拟甚至更好的结果,有着广泛的应用潜力。
- 地面真实性对手写识别的影响
手写识别是访问古代手稿内容的关键技术,有助于保护文化遗产。深度学习在解决这一任务上表现出色,但要充分发挥其潜力,需要大量标记的数据,这在获取古代语言和文字方面是困难的。本文研究了对齐过程引入的系统性错误对训练和评估结果的影响,并提出了检测和 - 基于 Transformer 的阿拉伯离线手写文本识别方法
手写识别是模式识别和机器学习领域中具有挑战性和关键问题,其应用领域广泛。本文专注于离线阿拉伯手写文本识别问题,并引入两种替代架构,即 Transformer Transducer 和标准序列到序列 Transformer,并比较它们在准确性 - 离线文本识别的作者适应性:基于神经网络方法的探索
手写识别中,深度学习取得了显著成就。然而,神经网络在处理数据分布转变时存在问题。本文讨论如何使手写识别模型能够自适应不同风格的书写,通过使用少量新人笔迹的例子进行适应。通过两种基本模型以及模型无关元学习和作家代码两种方法,实验结果表明 Me - 基于 CNN-BiLSTM 模型的英文手写识别:对 IAM 数据集进行全面评估
本文针对英文手写体识别问题,提出了一种基于 CNN-BiLSTM 系统的解决方案,并在公共 IAM 数据集上进行了广泛评估,包括模型大小、数据增强和词汇表的影响。其中采用 CTC 层的 CNN-BiLSTM 网络达到了 3.59% 的 CE - BN-DRISHTI:通过手写文本实例级分割实现孟加拉文档识别
本文介绍了一个新的深度学习方法 (BN-DRISHTI),它结合了基于 YOLO 的物体检测框架、Hough 变换和仿射变换来解决孟加拉语手写体识别的线条和单词分割问题,同时还提供了一个包含 786 张手写孟加拉语文档图像的扩展数据集 (B - 使用 Transformer 和自然语言处理进行在线手势识别
本文中,使用 Transformer 模型结构对在线手写手势符号转化为自然语言句子进行了研究,并展示了该模型的编码器解决多级分割、学习某些语言特征和语法规则等方面的优秀表现。此外,使用学习的 Byte-Pair-Encoding(BPE)和 - MMUIT-HWDB: 使用转移学习方法构建越南随笔手写图像识别的新基准
本文提出了转移方法来构建手写图像数据集,以有效评估离线手写识别方法。我们提供了一个高质量的合成数据集,并使用各种现有方法进行了实验,以找出解决越南语手写识别问题的挑战。
- 一种用于在线手势识别数学表达式的 Transformer 架构
该研究使用 Transformer 架构为端到端的在线手写手势建立表达式树提供了强大的框架,并成功利用了注意力机制编码、学习和执行表达式的潜在语法,提供了鲁棒性,并提出了一个新的度量标准用于输出表达式树的语法正确性的评估。
- MM新颖性手写识别
介绍了一种以代理为中心的方法处理手写识别中的新颖性,并描述了一个基线代理,提出了评估协议并进行了实验以推进该方法,结果表明代理为中心的方法是可行的。
- 注意力聚焦:非递归手写文本行识别
使用变形金刚模型的多头自我注意力层,无需回归方法且具有超出预定义词汇表的单词识别能力,能实现很高的手写识别精度,即使在少量样本学习情况下也可取得满意的结果。
- 一种计算高效的全页离线手写文本识别流水线方法
本文介绍了一个 less computationally expensive 的全页手写文本识别框架,其中包括使用对象检测神经网络定位手写文本并使用多尺度 CNN 提取特征,然后将其输入到双向长短期记忆网络进行文本识别。该框架使用更少的内存 - MM利用序列桶技术和多 GPU 数据并行化加速循环神经网络的训练
本研究提出了一种基于最佳批处理按输入序列长度和数据并行化的高效循环神经网络训练算法,以在线手写识别任务为例,通过比较不同数量桶的基准训练性能和提出的解决方案,考察了墙钟时间、纪元数和验证损失值等方面的评估结果。
- 使用循环神经网络绘制和识别汉字
本文提出了一种基于循环神经网络的框架,将其作为识别和生成中文字符的判别模型和生成模型,达到了 ICDAR-2013 竞赛数据库上的最先进效果。
- 扫描、关注与阅读:采用 MDLSTM 关注的端到端手写段落识别
本文提出了一种基于注意力机制的模型,用于端到端手写文字识别,可以自动识别多行手写内容,无需进行预先分割。
- ICLR分段循环神经网络
引入了分段循环神经网络(SRNN),并使用全局半马尔可夫条件随机场来集成本地兼容性分数,从而在手写识别和汉语分词 / 词性标注方面获得了显着更高的准确性。