多语种印度文字的光学脚本识别

Aug, 2023

Optical Script Identification for multi-lingual Indic-script

Sidhantha Poddar, Rohan Gupta

TL;DR该研究论文调查了脚本识别和文本识别的现有方法和技术，并讨论了在处理和识别脚本方面的技术改进，特别是针对印度的 12 种主要印度文字的复杂特征和高级预处理方法。

Abstract

script identification and text recognition are some of the major domains in the application of Artificial Intelligence. In this era of digitalization, the use of →

script identification text recognition digital note-taking script pre-processing indic scripts

发现论文，激发创造

用于印地语书写的跨语言词汇识别和定位框架

提出了一种新的跨语言平台，用于手写单词识别和标记低资源脚本，其中使用可用脚本（考虑为源脚本）的充分大的数据集进行训练，并在其他脚本（考虑为目标脚本）上进行测试，该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习，成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。

Dec, 2017

通用脚本语言识别

我们提出使用多种实验策略（放大、扁平化和混合脚本）来学习与脚本无关的表示，重点关注四种主要的德拉维达语言（泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语），发现在下游的不以脚本为依据的语言识别中，词级脚本随机化和暴露于多个脚本书写的语言对于维持竞争性自然文本性能也非常有价值。

Jun, 2024

MDIW-13：一个新的多语言和多脚本数据库与脚本识别基准

提供了一个新的用于脚本识别算法比较的数据库，其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试，并提供了不同级别和类型的脚本识别结果，为未来的研究提供基础。

May, 2024

多语言 OCR 的序列到标签脚本识别

该研究提出了一种新型的线级别手写体识别方法，并将线级别手写体识别问题重新构建为序列标签问题，使用编码器和汇总器训练端到端解决该问题，并在扫描书籍和照片中测试，在 30 种书写系统和 232 种语言中，相比传统方法，提高了 16% 的正确率，并减少了因识别错误导致的 33% 的字符错误率。

Aug, 2017

Bhasha-Abhijnaanam: 针对 22 种印度语言的本地语和罗马化语言识别

我们为所有列在印度宪法中的 22 种印度语言创建了用于母语和罗马化文本的公开语言识别（LID）数据集和模型，并为类似的其他语言提供了解决罗马化文本 LID 中缺乏训练数据和低 LID 性能的简单有效的解决方案。

May, 2023

优化文化打字文件字符识别图像处理算法

利用多目标问题公式和非支配排序遗传算法（NSGA-II）调整参数，本文评估了在光学字符识别（OCR）应用于打字文化遗产文件时图像处理方法和参数调整的影响，并发现通过数字表示类型来针对图像预处理算法进行参数化可以提高 OCR 的性能。特别是自适应阈值法、双边滤波器和开操作是剧院封面、信件和整体数据集中表现最好的算法，应在 OCR 之前应用以提高其性能。

Nov, 2023

文本中的自动语言识别：一项调查

文章介绍了语言识别的概念及其历史，对现有的特征和方法进行了调查和评估，讨论了评估方法、应用和开放问题，并提出了未来的研究方向。

Apr, 2018

针对英文手写体草书和印刷体的端到端交互式深度学习标注系统

本文介绍了一种创新的、完整的端到端流程，采用深度学习和用户交互技术，对印刷和草书英文手写手稿进行注释，该方法使用了最先进的文本识别模型构建的检测系统和自定义的深度学习模型，结合易于使用的交互式界面，旨在提高检测、分割、序列化和识别阶段的准确性，以确保高质量的注释数据，最大程度地减少人类交互。

Apr, 2023

基于机器学习的印度口语识别概述

本文综合评述了印度口语识别领域的研究现状及其面临的独特挑战，探讨了可用的语音语料库、已有的研究成果和未来的研究方向，有助于了解该领域现状和发展趋势。

Nov, 2022

针对波斯 - 阿拉伯文脚本的语言识别基准测试 PALI

本文介绍了如何在 Perso-Arabic scripts 中实现语言检测。作者使用了一系列的监督技术来分类句子到他们的语言中，进而提出了一个层次模型来针对那些经常被分类器混淆的语言困境进行解决。实验结果表明了作者们得到的实现是有效的。

Apr, 2023