利用字符分解解决韩文 OCR 中类不平衡问题
使用韩语作为案例语言,比较使用不同编码方案(Jamo 级别独热、字符级别独热、字符级别稠密、字符级别多热)所得到的分类效果,结果显示字符级别特征较优秀。
May, 2019
本研究提出了一种基于字形标注方案来线性切分字形组成部分的 标注方法,给出了一份 孟加拉语手写字母片段的数据集,用于测试视觉算法的多目标字形分类,结果表明,深度学习方法可以推广到许多字典之外的字形。
Oct, 2020
本文提出了一种新颖的方法,通过逐步学习出现频率从高到低的复合字符类以及基本字符,设计合适的特征集以识别手写孟加拉字符,实现了 79.25% 的平均字符识别率。
Feb, 2010
本文提出一种新颖的子字符架构,利用韩语的独特组合结构将每个字符分解为一小组基本音韵单元,称为 “jamo 字母”,从而诱导字符和单词级别的表征。 jamo 字母透露出难以通过传统的字符级单元访问的句法和语义信息。它们显著缓解了数据稀疏性问题,在实验中减少了观察空间的原始空间的 1.6%,并在依赖解析中取得了显着的优化效果。
Jul, 2017
手写字符识别是机器学习研究人员面临的一个具有挑战性的问题,本文提出了一种简单、可推广、高效的方法 (CharNet) 来解决字符图像分类问题,并与现有方法的性能进行了比较。
Jan, 2024
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技术在整体上表现良好,显著提高了 NIKL-CoLA 句法任务的结果。这表明融合词素类型信息可以增强语言模型的句法和语义能力,表示采用更多的语言洞察力可以进一步提高性能,超越标准的形态分析。
Nov, 2023
本文针对旁遮普文字的光学字符识别任务,提出一种基于数学形态学的分割方法、深度卷积神经网络的分类模块及三次马尔可夫链式语言建模的末端至末端框架,取得了最新的错误率优化效果,并详尽阐述了深度学习实现过程中所需的众多技巧所依据的统计学理论。
Sep, 2015
本文介绍了两种知识蒸馏方法(LILA-BOTI 和 Super Teacher LILA-BOTI),并采用该方法为 Bangla 等形态丰富的语言进行字级手写光学字符识别(OCR),通过在评估协议中进行不同数据集的测试,显示出比基础模型和传统的知识蒸馏方法更好的性能,包括处理的类不平衡性和识别度等方面的提升。
May, 2022
构建一个包含基本水平和字符水平注释的古代汉字图像数据集,并提出一种基于字符分解和重组的零样本光学字符识别基准模型,实验证明了数据集和基准模型的有效性。
Aug, 2023
在线手写字符分割与手写识别紧密关联,但仅通过识别模型定位相关位置通常无法产生精确的分割。我们将分割与识别解耦,使得分割结果能进一步被利用。我们专注于已知转录的情况,此时字符分割变成了笔迹轨迹的采样点与文本中字符的匹配问题。受 $k$-means 聚类算法启发,我们从簇分配的角度看待它,并提出了一种基于 Transformer 的架构,在 Transformer 解码器块中使用学得的字符查询形成每个簇。为了评估我们方法的质量,我们为两个流行的在线手写数据集 IAM-OnDB 和 HANDS-VNOnDB 创建了字符分割的真值,并对它们进行了多种方法的评估,证明我们的方法达到了最佳的整体效果。
Sep, 2023