MDIW-13：一个新的多语言和多脚本数据库与脚本识别基准

May, 2024

MDIW-13：一个新的多语言和多脚本数据库与脚本识别基准

MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification

Miguel A. Ferrer, Abhijit Das, Moises Diaz, Aythami Morales, Cristina Carmona-Duarte...

TL;DR提供了一个新的用于脚本识别算法比较的数据库，其中包含来自多个不同脚本的印刷和手写文件。该数据库可用于进行各种基准测试，并提供了不同级别和类型的脚本识别结果，为未来的研究提供基础。

Abstract

script identification plays a vital role in applications that involve handwriting and document analysis within a multi-script and multi-lingual environment. Moreover, it exhibits a profound connection with human cognition. This paper provides a new →

script identification database benchmarking handwritten printed

发现论文，激发创造

用于印地语书写的跨语言词汇识别和定位框架

提出了一种新的跨语言平台，用于手写单词识别和标记低资源脚本，其中使用可用脚本（考虑为源脚本）的充分大的数据集进行训练，并在其他脚本（考虑为目标脚本）上进行测试，该跨语言框架通过使用浅显易懂的分区内字符映射进行有效的学习，成功实现了在少量训练数据的情况下识别和标记三种印度脚本中的文本。

Dec, 2017

多语种印度文字的光学脚本识别

该研究论文调查了脚本识别和文本识别的现有方法和技术，并讨论了在处理和识别脚本方面的技术改进，特别是针对印度的 12 种主要印度文字的复杂特征和高级预处理方法。

Aug, 2023

基于 LSTM 的快速多语言在线手写识别

本文介绍了一种支持 102 种语言的在线手写系统，采用深度神经网络架构和贝塞尔曲线的新输入编码，与之前的系统相比降低了 20%-40% 的错误率，并在 IAM-OnDB 数据集上取得了新的最优结果。通过实验确定了模型的最优配置，并在多个公共数据集上进行了评估。

Feb, 2019

WiLI 基准数据集用于书面语言鉴别

本篇论文介绍了 WiLI-2018 基准数据集，它是一个用于单语文本识别的公开免费数据集，包含来自维基百科的 1000 个段落，涵盖了 235 种语言，为分类数据集，用于确定未知主导语言的段落所属的语言。

Jan, 2018

MathWriting: 数学手写表达识别数据集

介绍了 MathWriting 数据集，它是迄今为止最大的在线手写数学表达式数据集，包含 23 万人工书写样本和 40 万个合成样本。MathWriting 还可用于离线 HME 识别，并且比所有现有的离线 HME 数据集（如 IM2LATEX-100K）都要大。为了推进在线和离线 HME 识别的研究，引入了基于 MathWriting 数据的基准测试。

Apr, 2024

Kannada-MNIST: 一种为卡纳达语量身定制的新手写数字数据集

本文介绍了一种新的手写数字数据集 Kannada-MNIST，可作为原 MNIST 数据集的直接替代品，并提供了另外一个真实世界的手写数据集 Dig-MNIST，以作为领域外测试数据集。我们公开了所有代码以及原始扫描图像与扫描设置，这使得研究人员可以进行端到端比较。所得到的基线准确率表明，这些数据集确实提供了一个比 MNIST 或 KMNIST 数据集更具挑战性的普适性挑战。

Aug, 2019

手写文件的非破坏性检验的新数据集

司法笔迹鉴定是法医科学的一个分支，旨在通过全面比较内在的局部和全局特征，检验手写文件以准确定义或假设手稿的作者。该研究提出了一个新的数据集，包括传统手写文件和数字工具（如平板电脑）生成的文件之间的比较，并展示了数据的初步结果，显示第一子集可以达到 90％的分类准确率，第二子集可以达到 96％。

Jan, 2024

BN-DRISHTI：通过手写文本实例级分割实现孟加拉文档识别

本文介绍了一个新的深度学习方法 (BN-DRISHTI)，它结合了基于 YOLO 的物体检测框架、Hough 变换和仿射变换来解决孟加拉语手写体识别的线条和单词分割问题，同时还提供了一个包含 786 张手写孟加拉语文档图像的扩展数据集 (BN-HTRd) 以及相应的线条和单词级别注释，用于单词识别的地面实况。该方法的在测试部分上得到了非常高的线条 (99.97%) 和单词 (98%) 分割 F 分数，表现优于外部三个孟加拉手写数据集。

May, 2023

手写英文字母惯性测量单元数据集

本研究提出了一种端到端的方法来利用惯性测量单元 (IMUs) 收集数据集，以识别手写英文字母，并利用印度写作风格中存在的多样性。该研究可拓展到模式识别的领域，并为在多语言和文化背景中识别手写字母提供有价值的见解。

Jul, 2023

MDIA：46 种语言多语对话生成的基准

本文介绍了 mDIA，这是第一个跨越低至高资源语言的大规模多语言对话生成基准。通过微调 mT5 和 DialoGPT 两种预训练模型，作者对 46 种语言中的真实对话进行了基线测试，结果表明 mT5 模型在 sacreBLEU 和 BertScore 方面表现更好，但在多样性方面表现较差。尽管在少量训练和零样本情况下表现出有希望的结果，但英语和其他语言之间的生成质量仍存在较大差距。作者希望发布 mDIA 可以促进更多有关生成多语言对话的研究，以促进语言多样性。

Aug, 2022