Croissant: 适用于机器学习数据集的元数据格式

Mar, 2024

Croissant: 适用于机器学习数据集的元数据格式

Croissant: A Metadata Format for ML-Ready Datasets

Mubashara Akhtar, Omar Benjelloun, Costanza Conforti, Joan Giner-Miguelez, Nitisha Jain...

TL;DR引入了 Croissant 元数据格式用于简化机器学习工具和框架对数据的使用，增加数据集的发现性、可移植性和互操作性，解决了机器学习数据管理和负责任的人工智能中的重要挑战。

Abstract

data is a critical resource for machine learning (ML), yet working with data remains a key friction point. This paper introduces

machine learning data croissant metadata format ml data management

发现论文，激发创造

描述机器学习数据集的领域特定语言

该论文提出了一种具有社会关注的领域特定语言来描述机器学习数据集的结构以及数据出处的新方法，这将促进任何机器学习倡议来利用和从机器学习的数据中获益。

Jul, 2022

使用 ir_datasets 进行简化的数据整理

介绍一个 names 为 ir_datasets 的工具，使 Information Retrieval (IR) 实验的数据处理更加容易。该工具提供 Python 和命令行接口，处理文本数据集用于全文搜索，并通过 ir_datasets 目录提供数据集的信息以及各项基准数据提供的核心信息和链接。

Mar, 2021

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

数据集：自然语言处理社区的共享库

该研究论文探讨了一个名为 Datasets 的 NLP 数据集库，旨在通过标准化终端用户接口、版本控制和文档，为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端，并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展，在该库中已经包含超过 650 个独特的数据集，有 250 多名贡献者，并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。

Sep, 2021

加速科学的数据集工程白皮书

数据集在科学发现过程中的组织和应用至关重要，也应该成为任何知识密集型过程中的一等公民，并且应该引起人们对数据集生命周期的重视和关注，尤其是在使用人工智能方法来探索科学知识时。

Mar, 2023

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022

开放数据表：机器可读的开放数据集文档和负责任的人工智能评估

介绍了一种无代码、机器可读的开放数据集文档框架，关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性，促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估，帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施，并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性，促进更负责任和值得信赖的人工智能系统的发展。

Dec, 2023

数据集的数据表

为了解决机器学习数据集缺乏标准化过程带来的严重后果，我们提出了数据集的数据表格，以促进数据集创建者和数据集使用者之间的更好沟通，并鼓励机器学习社区优先考虑透明度和责任性。

Mar, 2018

数据许可证的标准化：蒙特利尔数据许可证

本文提供了人工智能和机器学习领域数据许可的分类，以建立类似于开源软件许可证的通用框架。新的数据许可语言 —— 蒙特利尔数据许可证（MDL）以及配套的基于 Web 的工具可以奉行本文所阐述的税 onomies。其目的是通过增加透明度，解决现有许可证文本中概念上的模糊之处，从而在 AI 和 ML 领域带来更清晰的工具和概念，使数据市场更公平，更有效。

Mar, 2019

数据叶子：面向场景的数据联合创新元数据

通过将数据集连接起来，从而代表每个数据集摘要信息的方法，旨在帮助创新思想和数据用户之间的沟通，使其能够使用或组合数据集来创建有价值的产品、服务和商业模式，提供适用于现实业务需求和应用的实用知识以及基础，并为将人工智能技术应用于数据提供现实基础。

Aug, 2022