第一个斯瓦希里语场景文本检测与识别数据集
通过提供 1000 多幅自然场景图像,该研究提出了一个新的多任务乌尔都语场景文本数据集,用于文本检测、识别和视觉问答任务,并解决了之前数据集在面对任意形状文本时的限制。该数据集通过引入额外的标注点,方便了对能够处理多样文本布局、复杂形状和非标准方向的方法进行开发和评估,帮助进一步推动乌尔都语场景文本理解方法的发展。
May, 2024
本文开发了一个带有乌尔都文本的情景图像数据集,并提出使用机器学习方法从这些图像中检测乌尔都文本的方法,包括通过 MSER 方法提取文本区域、利用 SVM 分类器筛选非文本区域、HoG 特征训练第二个 SVM 分类器来进一步提高文本区域检测的性能。最终目的是为乌尔都文本检测研究提供数据资源,并突出该领域的挑战和研究空白。
Sep, 2022
研究了自然语言处理技术在低资源语言中的应用,提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型,并探索了一种适合低资源语言的数据增强方法以提高分类器性能。
Mar, 2020
研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发,提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典,以及使用扩展的音位集培训的 ASR 模型,使得模型优于以前类似研究的表现,并可在听障者中实现其母语的转录。
Oct, 2022
我们提出了一种多语言文本检测模型,通过引入 SFM Swin Transformer 特征提取网络、AS-HRFPN 特征融合网络和全局语义分割分支,改进了对自然场景中多语言文本的检测准确性和难度,实验结果表明该算法 F-measure 值为 85.02%,比基准模型高出 4.71%。
Dec, 2023
本研究开发了 Kencorpus Swahili Question Answering Dataset(KenSwQuAD), 这一包含 7,526 个 QA 组合的数据集(每一个包含至少 5 个 QA 组合的文本都被标注了 QA 组合),证明其对机器理解自然语言很有用。
May, 2022
Kencorpus, the first corpus of its kind for low-resource Indigenous African languages, endeavors to fill the gap in the development of Natural Language Processing and Machine Learning datasets for Swahili, Dholuo, and Luhya languages, enabling text and speech data-driven solutions in applications like machine translation, question-answering, and transcription.
Aug, 2022
本文介绍了基于 RRC-MLT-2017 的文本检测和识别竞赛,该竞赛包含一个新的端到端任务、一个现实图像数据集中的额外语言,一个大规模的多语言合成数据集以辅助训练,并提出了一个基线端到端识别方法。该竞赛总共收到了来自研究和工业界的 60 份提交,本文展示了该竞赛的数据集、任务和发现结果。
Jul, 2019