HASYv2 数据集

Jan, 2017

The HASYv2 dataset

Martin Thoma

TL;DR本文介绍了 HASYv2 数据集，它是一个类似于 MNIST 的免费公开数据集，包含了 369 个类别的 168233 个单个符号实例，并且包含有分类和验证两个挑战。

Abstract

This paper describes the HASYv2 dataset. HASY is a publicly available, free of charge dataset of single symbols similar to MNIST. It conta

dataset symbols classification verification cross-validation

发现论文，激发创造

MedMNIST v2 -- 二维和三维生物医学图像分类的大规模轻量级基准

介绍了一个类似于 MNIST 的大规模医学图像数据集 MedMNIST v2，包括 12 个 2D 数据集和 6 个 3D 数据集，经过预处理的图像大小为 28x28 或 28x28x28，支持多种数据集规模和任务，并提供了基准方法（2D/3D 神经网络和开源 / 商业 AutoML 工具）进行分类任务。可用于医学图像分析，计算机视觉和机器学习等领域的研究和教育目的。

Oct, 2021

How2Sign: 一个大规模多模态连续美国手语数据集

介绍了一个包含 80 多个小时的美国国家手语（ASL）视频及其对应的英文对话、音频和深度信息等多模态和多视角的连续手语数据集 How2Sign，并通过手语者的实验表明利用这个数据集合成的视频能够被理解，同时指出计算机视觉领域需要解决的挑战。

Aug, 2020

TextCaps: 使用非常小的数据集进行手写字符识别

本文介绍了一种技术，通过加入实际的随机噪声到参数实例化中，从现有样本生成新的训练样本数据，以实现针对缺少大量标记数据的本地语言的字符识别，同时可用于物体识别等相关上下文。

Apr, 2019

MathWriting: 数学手写表达识别数据集

介绍了 MathWriting 数据集，它是迄今为止最大的在线手写数学表达式数据集，包含 23 万人工书写样本和 40 万个合成样本。MathWriting 还可用于离线 HME 识别，并且比所有现有的离线 HME 数据集（如 IM2LATEX-100K）都要大。为了推进在线和离线 HME 识别的研究，引入了基于 MathWriting 数据的基准测试。

Apr, 2024

离线手写识别的大型训练数据集 CENSUS-HWR

本文介绍了一个新的数据集 CENSUS-HWR，包含 1812014 个灰度图像，用于训练自动手写体识别模型，可以作为深度学习算法的基准，该数据集来自美国 1930 和 1940 年的人口普查，可免费下载。

May, 2023

Fashion-MNIST: 一种新颖的图像数据集，用于基准测试机器学习算法

介绍 Fashion-MNIST 数据集，该数据集由十个类别的七万张灰度图像组成，旨在作为 MNIST 数据集的替代品，用于机器学习算法的基准测试。

Aug, 2017

哈亚姆离线波斯手写数据集

Khayyam dataset is an extensive collection of handwriting samples in the Persian language, specifically focused on rare Persian word samples, consisting of 44,000 words, 60,000 letters, and 6,000 digits, provided by 400 native Persian writers, serving as a valuable resource for machine learning algorithms.

Jun, 2024

Kannada-MNIST: 一种为卡纳达语量身定制的新手写数字数据集

本文介绍了一种新的手写数字数据集 Kannada-MNIST，可作为原 MNIST 数据集的直接替代品，并提供了另外一个真实世界的手写数据集 Dig-MNIST，以作为领域外测试数据集。我们公开了所有代码以及原始扫描图像与扫描设置，这使得研究人员可以进行端到端比较。所得到的基线准确率表明，这些数据集确实提供了一个比 MNIST 或 KMNIST 数据集更具挑战性的普适性挑战。

Aug, 2019

跨数据集分析测试平台

本文开展了针对视觉图像识别中数据集偏见问题的大规模分析，通过将 12 个已有数据库组织成一个语料库，提供了一个有用的特征储存库以供未来研究使用。

Feb, 2014

EMNIST：手写字母的 MNIST 扩展数据集

介绍了一个常用于图像分类和机器学习的 MNIST 数据集的扩展版本 EMNIST，它包含更具挑战性的数字和字母分类任务，而且与原始的 MNIST 任务具有相同的图像结构和参数，兼容所有现有的分类器和系统。通过将转换后的 NIST 数据集和 MNIST 数据集的分类结果进行比较来验证转换过程。

Feb, 2017