一款用于生成和操作迷宫数据集的可配置库
本文提出了一种名为 MAZE 的新型数据无关模型窃取攻击方法,采用零阶梯度估计和生成模型,无需任何数据,能够有效地窃取目标模型。经过四个数据集的评估,MAZE 在规范化克隆准确度方面表现良好,并在克隆准确度、攻击查询和寻求与目标分布更相近的数据等方面进行了改进。
May, 2020
本论文介绍了一个名为 MazeBase 的简单二维游戏环境,旨在为机器学习方法提供推理和规划的平台。文章讨论了基于神经模型(全连接,卷积网络,记忆网络)在该环境上的强化学习,以及使用该环境复现《星际争霸》中的小型战斗场景并将其应用于游戏中的 AI,虽然实验表明性能还有提升的空间,但这些结果为未来的研究发展方向指明了方向。
Nov, 2015
本文扩展了 Shifts 数据集,加入了两个来源于高风险工业应用的数据集,用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计,具有普遍分布转移和严格的安全要求。
Jun, 2022
本研究提出了 MetaShift—— 一个覆盖 410 个类别的 12,868 个自然图像的集合 —— 旨在通过对自然异质性的利用来对抗数据分布的变化与转移,并提出了关于不同数据集之间的独特性的显式解释以及度量分数。通过 MetaShift 的实验结果表明,当分布转移不是很大时,简单的经验风险最小化方法最佳;而在大的分布转移情况下,没有任何一种方法具有显著的优势。MetaShift 还可以帮助可视化模型训练过程中不同数据子集之间的冲突。
Feb, 2022
本研究提出了一种算法来生成可调难度的分类摩尔斯代码符号的合成数据集,主要用于监督机器学习问题,特别是神经网络。这些数据集具有一维空间和少量的输入特征,导致输入信息内容密度高,从而使网络复杂度降低方法实施时特别具有挑战性。我们探讨了通过故意添加各种形式的噪声和扩大特征集和数据集大小来增加网络性能的影响。最后,我们建立了几个指标来表明数据集的难度,并评估它们的优点。该算法和数据集是开源的。
Jul, 2018
本文研究了生成数据集对图像分类器自然鲁棒性的影响,发现与标准训练和流行的数据增强策略相比,使用真实数据和生成数据相结合进行训练可以提高 Imagenet 分类器的准确性和鲁棒性,同时分析了不同因素对结果的影响,并介绍了 ImageNet-G-v1 数据集。
Feb, 2023
利用数据集工厂方法实现数据集存储和处理的分离,以及在机器学习团队和个人研究者间实现大规模数据中心化操作,以解决生成式人工智能工作流中数据处理和共享的挑战。
Sep, 2023
使用基因算法生成的大规模人工数据集,可以用于训练机器学习模型,以应对真实世界数据的极端稀缺或成本或数据敏感性等问题。
May, 2023