一款用于生成和操作迷宫数据集的可配置库

Sep, 2023

一款用于生成和操作迷宫数据集的可配置库

A Configurable Library for Generating and Manipulating Maze Datasets

Michael Igorevich Ivanitskiy, Rusheb Shah, Alex F. Spies, Tilman Räuker, Dan Valentine...

TL;DR为了系统地研究机器学习模型对分布变化的响应，我们提出了「maze-dataset」，这是一个生成、处理和可视化迷宫求解任务数据集的全面库，支持多种输出格式和工具，保证在研究应用中具有多样性和适应性。

Abstract

Understanding how machine learning models respond to distributional shifts is a key research challenge. Mazes serve as an excellent testbed due to varied →

machine learning models distributional shifts maze-dataset datasets generation algorithms

发现论文，激发创造

MAZE: 使用零阶梯度估计的无数据模型窃取攻击

本文提出了一种名为 MAZE 的新型数据无关模型窃取攻击方法，采用零阶梯度估计和生成模型，无需任何数据，能够有效地窃取目标模型。经过四个数据集的评估，MAZE 在规范化克隆准确度方面表现良好，并在克隆准确度、攻击查询和寻求与目标分布更相近的数据等方面进行了改进。

May, 2020

MazeBase：基于游戏的学习沙盒

本论文介绍了一个名为 MazeBase 的简单二维游戏环境，旨在为机器学习方法提供推理和规划的平台。文章讨论了基于神经模型（全连接，卷积网络，记忆网络）在该环境上的强化学习，以及使用该环境复现《星际争霸》中的小型战斗场景并将其应用于游戏中的 AI，虽然实验表明性能还有提升的空间，但这些结果为未来的研究发展方向指明了方向。

Nov, 2015

Shifts 2.0：扩展实际分布漂移数据集

本文扩展了 Shifts 数据集，加入了两个来源于高风险工业应用的数据集，用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计，具有普遍分布转移和严格的安全要求。

Jun, 2022

描述机器学习数据集的领域特定语言

该论文提出了一种具有社会关注的领域特定语言来描述机器学习数据集的结构以及数据出处的新方法，这将促进任何机器学习倡议来利用和从机器学习的数据中获益。

Jul, 2022

MetaShift：用于评估上下文分布变化和训练冲突的数据集合集

本研究提出了 MetaShift—— 一个覆盖 410 个类别的 12,868 个自然图像的集合 —— 旨在通过对自然异质性的利用来对抗数据分布的变化与转移，并提出了关于不同数据集之间的独特性的显式解释以及度量分数。通过 MetaShift 的实验结果表明，当分布转移不是很大时，简单的经验风险最小化方法最佳；而在大的分布转移情况下，没有任何一种方法具有显著的优势。MetaShift 还可以帮助可视化模型训练过程中不同数据子集之间的冲突。

Feb, 2022

机器学习用的摩尔斯电码数据集

本研究提出了一种算法来生成可调难度的分类摩尔斯代码符号的合成数据集，主要用于监督机器学习问题，特别是神经网络。这些数据集具有一维空间和少量的输入特征，导致输入信息内容密度高，从而使网络复杂度降低方法实施时特别具有挑战性。我们探讨了通过故意添加各种形式的噪声和扩大特征集和数据集大小来增加网络性能的影响。最后，我们建立了几个指标来表明数据集的难度，并评估它们的优点。该算法和数据集是开源的。

Jul, 2018

Shifts: 多个大规模任务中的真实分布转移数据集

本研究提出了 Shifts 数据集，用于评估不确定性预测和对分布偏移的鲁棒性，并提供了基线结果和任务描述。

Jul, 2021

通过生成数据集实现强健分类：让现实留给想象

本文研究了生成数据集对图像分类器自然鲁棒性的影响，发现与标准训练和流行的数据增强策略相比，使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性，同时分析了不同因素对结果的影响，并介绍了 ImageNet-G-v1 数据集。

Feb, 2023

数据集工厂：用于生成计算机视觉数据集的工具链

利用数据集工厂方法实现数据集存储和处理的分离，以及在机器学习团队和个人研究者间实现大规模数据中心化操作，以解决生成式人工智能工作流中数据处理和共享的挑战。

Sep, 2023

一种新的算法能在极度缺乏真实世界数据的条件下生成用于训练机器学习模型的数据

使用基因算法生成的大规模人工数据集，可以用于训练机器学习模型，以应对真实世界数据的极端稀缺或成本或数据敏感性等问题。

May, 2023