HASYv2 数据集
介绍了一个类似于 MNIST 的大规模医学图像数据集 MedMNIST v2,包括 12 个 2D 数据集和 6 个 3D 数据集,经过预处理的图像大小为 28x28 或 28x28x28,支持多种数据集规模和任务,并提供了基准方法 (2D/3D 神经网络和开源 / 商业 AutoML 工具)进行分类任务。可用于医学图像分析,计算机视觉和机器学习等领域的研究和教育目的。
Oct, 2021
介绍了一个包含 80 多个小时的美国国家手语(ASL)视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign,并通过手语者的实验表明利用这个数据集合成的视频能够被理解,同时指出计算机视觉领域需要解决的挑战。
Aug, 2020
本文介绍了一种技术,通过加入实际的随机噪声到参数实例化中,从现有样本生成新的训练样本数据,以实现针对缺少大量标记数据的本地语言的字符识别,同时可用于物体识别等相关上下文。
Apr, 2019
介绍了 MathWriting 数据集,它是迄今为止最大的在线手写数学表达式数据集,包含 23 万人工书写样本和 40 万个合成样本。MathWriting 还可用于离线 HME 识别,并且比所有现有的离线 HME 数据集(如 IM2LATEX-100K)都要大。为了推进在线和离线 HME 识别的研究,引入了基于 MathWriting 数据的基准测试。
Apr, 2024
本文介绍了一个新的数据集 CENSUS-HWR,包含 1812014 个灰度图像,用于训练自动手写体识别模型,可以作为深度学习算法的基准,该数据集来自美国 1930 和 1940 年的人口普查,可免费下载。
May, 2023
介绍 Fashion-MNIST 数据集,该数据集由十个类别的七万张灰度图像组成,旨在作为 MNIST 数据集的替代品,用于机器学习算法的基准测试。
Aug, 2017
Khayyam dataset is an extensive collection of handwriting samples in the Persian language, specifically focused on rare Persian word samples, consisting of 44,000 words, 60,000 letters, and 6,000 digits, provided by 400 native Persian writers, serving as a valuable resource for machine learning algorithms.
Jun, 2024
本文介绍了一种新的手写数字数据集 Kannada-MNIST,可作为原 MNIST 数据集的直接替代品,并提供了另外一个真实世界的手写数据集 Dig-MNIST,以作为领域外测试数据集。我们公开了所有代码以及原始扫描图像与扫描设置,这使得研究人员可以进行端到端比较。所得到的基线准确率表明,这些数据集确实提供了一个比 MNIST 或 KMNIST 数据集更具挑战性的普适性挑战。
Aug, 2019
介绍了一个常用于图像分类和机器学习的 MNIST 数据集的扩展版本 EMNIST,它包含更具挑战性的数字和字母分类任务,而且与原始的 MNIST 任务具有相同的图像结构和参数,兼容所有现有的分类器和系统。通过将转换后的 NIST 数据集和 MNIST 数据集的分类结果进行比较来验证转换过程。
Feb, 2017