Croissant: 适用于机器学习数据集的元数据格式
介绍一个 names 为 ir_datasets 的工具,使 Information Retrieval (IR) 实验的数据处理更加容易。该工具提供 Python 和命令行接口,处理文本数据集用于全文搜索,并通过 ir_datasets 目录提供数据集的信息以及各项基准数据提供的核心信息和链接。
Mar, 2021
该研究论文探讨了一个名为 Datasets 的 NLP 数据集库,旨在通过标准化终端用户接口、版本控制和文档,为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端,并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展,在该库中已经包含超过 650 个独特的数据集,有 250 多名贡献者,并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。
Sep, 2021
数据集在科学发现过程中的组织和应用至关重要,也应该成为任何知识密集型过程中的一等公民,并且应该引起人们对数据集生命周期的重视和关注,尤其是在使用人工智能方法来探索科学知识时。
Mar, 2023
介绍了一种无代码、机器可读的开放数据集文档框架,关注负责任的人工智能考虑。旨在提高开放数据集的可访问性、可理解性和可用性,促进更容易发现和使用、更好理解内容和背景以及评估数据集的质量和准确性。该框架旨在简化数据集评估,帮助研究人员、数据科学家和其他开放数据用户快速识别满足其需求和 / 或组织政策或法规的数据集。论文还讨论了该框架的实施,并提供了最大化其潜力的建议。预期该框架将提高研究和决策中使用的数据的质量和可靠性,促进更负责任和值得信赖的人工智能系统的发展。
Dec, 2023
为了解决机器学习数据集缺乏标准化过程带来的严重后果,我们提出了数据集的数据表格,以促进数据集创建者和数据集使用者之间的更好沟通,并鼓励机器学习社区优先考虑透明度和责任性。
Mar, 2018
本文提供了人工智能和机器学习领域数据许可的分类,以建立类似于开源软件许可证的通用框架。新的数据许可语言 —— 蒙特利尔数据许可证(MDL)以及配套的基于 Web 的工具可以奉行本文所阐述的税 onomies。其目的是通过增加透明度,解决现有许可证文本中概念上的模糊之处,从而在 AI 和 ML 领域带来更清晰的工具和概念,使数据市场更公平,更有效。
Mar, 2019
通过将数据集连接起来,从而代表每个数据集摘要信息的方法,旨在帮助创新思想和数据用户之间的沟通,使其能够使用或组合数据集来创建有价值的产品、服务和商业模式,提供适用于现实业务需求和应用的实用知识以及基础,并为将人工智能技术应用于数据提供现实基础。
Aug, 2022