第一个斯瓦希里语场景文本检测与识别数据集

May, 2024

第一个斯瓦希里语场景文本检测与识别数据集

The First Swahili Language Scene Text Detection and Recognition Dataset

Fadila Wendigoundi Douamba, Jianjun Song, Ling Fu, Yuliang Liu, Xiang Bai

TL;DR该研究提出了一个针对斯瓦希里语的自然场景文字检测和识别的综合数据集，并通过对不同场景文字检测和识别模型的评估，将该数据集作为斯瓦希里语的基准数据集，以评估和比较不同方法，并促进未来的研究努力。

Abstract

scene text recognition is essential in many applications, including automated translation, information retrieval, driving assistance, and enhancing accessibility for individuals with visual impairments. Much research has been done to improve the accuracy and performance of scene text d

scene text recognition low-resource languages swahili dataset evaluation

发现论文，激发创造

使用多语言 BERT 的斯瓦希里语情感分类

该研究利用最先进的多语言 BERT 模型，对斯瓦希里语数据集进行情感分类，实现了 87.59％的最佳准确率。

Apr, 2021

乌尔都语自然场景文本检测、识别和视觉问答的数据集和基准

通过提供 1000 多幅自然场景图像，该研究提出了一个新的多任务乌尔都语场景文本数据集，用于文本检测、识别和视觉问答任务，并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点，方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估，帮助进一步推动乌尔都语场景文本理解方法的发展。

May, 2024

利用机器学习技术促进不发达语言的发展：乌尔都语文本检测进展

本文开发了一个带有乌尔都文本的情景图像数据集，并提出使用机器学习方法从这些图像中检测乌尔都文本的方法，包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源，并突出该领域的挑战和研究空白。

Sep, 2022

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020

野外场景中的文本识别：一项调查

该论文总结了场景文本识别的基本问题和最新技术，提供了相关资源，指出了未来的研究方向。

May, 2020

非洲土著语言语音转文本应用中的音素表示和转写：以斯瓦希里语为例

研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发，提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典，以及使用扩展的音位集培训的 ASR 模型，使得模型优于以前类似研究的表现，并可在听障者中实现其母语的转录。

Oct, 2022

多语言自然场景文本检测算法研究

我们提出了一种多语言文本检测模型，通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支，改进了对自然场景中多语言文本的检测准确性和难度，实验结果表明该算法 F-measure 值为 85.02%，比基准模型高出 4.71%。

Dec, 2023

KenSwQuAD-- 用于斯瓦希里低资源语言的问答数据集

本研究开发了 Kencorpus Swahili Question Answering Dataset（KenSwQuAD）, 这一包含 7,526 个 QA 组合的数据集（每一个包含至少 5 个 QA 组合的文本都被标注了 QA 组合），证明其对机器理解自然语言很有用。

May, 2022

Kencorpus: 一个用于自然语言处理任务的肯尼亚斯瓦希里语、多鲁奥语和卢希亚语语料库

Kencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.

Aug, 2022

ICDAR2019 多语言场景文本检测和识别鲁棒性挑战 —RRC-MLT-2019

本文介绍了基于 RRC-MLT-2017 的文本检测和识别竞赛，该竞赛包含一个新的端到端任务、一个现实图像数据集中的额外语言，一个大规模的多语言合成数据集以辅助训练，并提出了一个基线端到端识别方法。该竞赛总共收到了来自研究和工业界的 60 份提交，本文展示了该竞赛的数据集、任务和发现结果。

Jul, 2019