Afro-MNIST: 合成 MNIST 风格的数据集，用于低资源语言

ICLRSep, 2020

Afro-MNIST: 合成 MNIST 风格的数据集，用于低资源语言

Afro-MNIST: Synthetic generation of MNIST-style datasets for low-resource languages

PDF

Daniel J Wu, Andrew C Yang, Vinay U Prabhu

TL;DR介绍 Afro-MNIST 合成数据集及其用途，以及一种基于单个数字示例生成 MNIST 风格数据集的方法，并希望激励其他数字符号系统的科学研究。

Abstract

We present afro-mnist, a set of synthetic mnist-style datasets for four orthographies used in afro-asiatic and →

afro-mnist synthetic datasets afro-asiatic niger-congo mnist-style

发现论文，激发创造

Kannada-MNIST: 一种为卡纳达语量身定制的新手写数字数据集

本文介绍了一种新的手写数字数据集 Kannada-MNIST，可作为原 MNIST 数据集的直接替代品，并提供了另外一个真实世界的手写数据集 Dig-MNIST，以作为领域外测试数据集。我们公开了所有代码以及原始扫描图像与扫描设置，这使得研究人员可以进行端到端比较。所得到的基线准确率表明，这些数据集确实提供了一个比 MNIST 或 KMNIST 数据集更具挑战性的普适性挑战。

Aug, 2019

AfroDigits：一个面向非洲语言的社区驱动口语数字数据集

该文章介绍了 AfroDigits 数据集，这是一个社区驱动的包含 38 种非洲语言的最小化 data-set，用于解决语音技术在非洲语言中的局限性，在使用 Wav2Vec2.0-Large 和 XLS-R 模型的实验中显示了洲际混合语音库对对象识别的影响。

Mar, 2023

生成文本识别的合成数据

本研究使用开源字体和数据增广技术生成 900 万份手写词图像，可用于训练深度神经网络并提高手写词识别的性能。

Aug, 2016

Setswana 和 Sepedi 的低资源语言数据集创建、筛选和分类 -- 扩展摘要

研究了自然语言处理技术在低资源语言中的应用，提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型，并探索了一种适合低资源语言的数据增强方法以提高分类器性能。

Mar, 2020

Fashion-MNIST: 一种新颖的图像数据集，用于基准测试机器学习算法

介绍 Fashion-MNIST 数据集，该数据集由十个类别的七万张灰度图像组成，旨在作为 MNIST 数据集的替代品，用于机器学习算法的基准测试。

Aug, 2017

非洲语言神经机器翻译的重点

探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言（Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga），提供可重复使用的数据、代码和结果，为非洲机器翻译研究提供比较和承建的起点。

Jun, 2019

南非语言低资源语言建模

本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。

Apr, 2021

用于南非语言的神经机器翻译基准测试

该研究使用公共数据集为 5 种南非语言训练了神经机器翻译模型，并提供了训练和评估模型的代码，旨在促进南非语言领域的未来研究。

Jun, 2019

构建非洲之声

本研究聚焦于低资源非洲语言语音合成，着重于从语料库创作到 TTS 系统的共享和部署，通过参与式方法建立新的数据集和数据挖掘，发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音，并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。

Jul, 2022

EMNIST：手写字母的 MNIST 扩展数据集

介绍了一个常用于图像分类和机器学习的 MNIST 数据集的扩展版本 EMNIST，它包含更具挑战性的数字和字母分类任务，而且与原始的 MNIST 任务具有相同的图像结构和参数，兼容所有现有的分类器和系统。通过将转换后的 NIST 数据集和 MNIST 数据集的分类结果进行比较来验证转换过程。

Feb, 2017