Afro-MNIST: 合成 MNIST 风格的数据集,用于低资源语言
本文介绍了一种新的手写数字数据集 Kannada-MNIST,可作为原 MNIST 数据集的直接替代品,并提供了另外一个真实世界的手写数据集 Dig-MNIST,以作为领域外测试数据集。我们公开了所有代码以及原始扫描图像与扫描设置,这使得研究人员可以进行端到端比较。所得到的基线准确率表明,这些数据集确实提供了一个比 MNIST 或 KMNIST 数据集更具挑战性的普适性挑战。
Aug, 2019
该文章介绍了 AfroDigits 数据集,这是一个社区驱动的包含 38 种非洲语言的最小化 data-set,用于解决语音技术在非洲语言中的局限性,在使用 Wav2Vec2.0-Large 和 XLS-R 模型的实验中显示了洲际混合语音库对对象识别的影响。
Mar, 2023
研究了自然语言处理技术在低资源语言中的应用,提出了用于塞茨瓦纳语和塞班语头条新闻的数据集及其用于新闻主题分类的基线模型,并探索了一种适合低资源语言的数据增强方法以提高分类器性能。
Mar, 2020
介绍 Fashion-MNIST 数据集,该数据集由十个类别的七万张灰度图像组成,旨在作为 MNIST 数据集的替代品,用于机器学习算法的基准测试。
Aug, 2017
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
Jun, 2019
本文通过研究对南非低资源语言的开放词汇语言模型的表现来评估不同变种的 N 元模型、前馈神经网络、循环神经网络和 Transformers 网络。这项研究有望为非洲语言的多语种和低资源语言建模开辟新的研究途径。
Apr, 2021
本研究聚焦于低资源非洲语言语音合成,着重于从语料库创作到 TTS 系统的共享和部署,通过参与式方法建立新的数据集和数据挖掘,发现即使在次优环境下录制 25 分钟的语音也能生成可听懂的语音,并为 12 种非洲语言提供了语音数据、代码和训练好的语音以支持研究人员和开发者。
Jul, 2022
介绍了一个常用于图像分类和机器学习的 MNIST 数据集的扩展版本 EMNIST,它包含更具挑战性的数字和字母分类任务,而且与原始的 MNIST 任务具有相同的图像结构和参数,兼容所有现有的分类器和系统。通过将转换后的 NIST 数据集和 MNIST 数据集的分类结果进行比较来验证转换过程。
Feb, 2017