数据共享平台

Sep, 2023

Data Commons

Ramanathan V. Guha, Prashanth Radhakrishnan, Bo Xu, Wei Sun, Carolyn Au...

TL;DRData Commons 是一个分布式网络，旨在帮助用户理解和解决社会挑战，通过对公共数据进行数据处理和标准化，提供通过自然语言搜索的知识图谱。

Abstract

Publicly available data from open sources (e.g., United States Census Bureau (Census), World Health Organization (WHO), Intergovernmental Panel on Climate Change (IPCC)) are vital resources for policy makers, students and researchers across different disciplines. Combining data from different sources requires the user to reconcile the differences in schemas,

public data data wrangling data commons distributed network knowledge graph

发现论文，激发创造

构建感染病流行病学的学科特定共享空间

通过创建一个公共平台，流行病学家、公共卫生官员、数据生产者和软件开发人员不仅能够共享数据和软件，还能获得在提升其互操作性方面的帮助。在这项研究中，通过 OWL 2 来表示 586 个数据集、54 个软件和 24 种数据格式，并使用逻辑查询来推断潜在的互操作性的软件和数据集的组合以及关于 FAIRness 的统计信息。结果表明，互操作性受到软件输入和输出格式缺乏标准化的限制。通过命名的数据格式在三元存储中进行逻辑搜索，可以识别出大量潜在的互操作的软件和数据集的组合。通过集中和规范化数字对象的表示，能够促进 FAIRness，并使其随时间测量，并识别潜在的互操作的数据和软件的组合。

Nov, 2023

开放医学影像数据集的实用化：从社区贡献的数据管理和保护平台中汲取的经验

医学成像数据集对人工智能在医疗保健中至关重要，本文调查了社区贡献平台上的医学成像数据集，发现数据管理和共享问题，提出了基于共同管理的模型以改善数据质量。

Feb, 2024

神奇的数据及如何查询它们

本文介绍了一个用于不同数据集整合和查询的统一框架，并在计算机视觉数据集中展示了其在不同情景下的优势。

Jan, 2022

数据集压缩是否是医疗数据共享的万能药方？

本研究研究了数据集压缩（DC）在 AI 研究中分享保健数据的前景，并取得了有希望的结果，数据集压缩通过压缩容量和加速模型收敛，既实现了正确的去隐私化，又保留了原始的深度学习功能，同时保护数据隐私并加速模型收敛，DC 为多项愿望的保健数据共享开启了新的大门。

May, 2023

数据科学、机器学习和人工智能数据源总览

数据科学、机器学习和人工智能的最新进展，如大型语言模型的出现，正在导致对可由这些模型处理的数据的不断增加需求。尽管数据来源是应用特定的，而且不可能提供详尽无遗的数据来源清单，但提供一份涵盖多个应用领域的（必然不完整的）数据源列表或综合手册仍将有益于各级资深的数据科学家和机器学习专家。

Sep, 2023

NCI 成像数据共享平台：在计算病理学中实现可重复研究

通过实现 FAIR（持久性识别，可发现性，可访问性和重用性）原则，NCI IDC 建立了一个公共图像库，其中包含多个癌症图像收集，该图像库可用于云端的 ML 服务，从而实现了 CompPath 研究的可重复复性。

Mar, 2023

通过开放知识库和人工智能对气候变化研究进行映射：为基于证据的研发政策制定提供的优势和局限性

研究了使用 OpenAire、Open Alex、CORDIS 和 Kohesio 等四个热门开放获取科技创新数据源来绘制整个丹麦 STI 生态系统中的气候行动研究的案例，分析这些资源的互操作性是否得到保障，以便更好地整合和补充数据，并提供更全面可靠的证据支持基于证据的政策制定。

Sep, 2022

CC 查询：从公共语料库中发掘大规模领域特定知识

通过大语言模型引导的数据收集方法 Query of CC，我们构建了高质量的知识数据集 Knowledge Pile，包括数学和知识相关推理能力测试，并开源了我们的数据集和代码，为学术界提供有价值的支持。

Jan, 2024

地理和背景多样化数据源文献：BigScience 语言数据和资源目录

本研究介绍了一个大型数据收集项目的方法论，强调了文档记录和以人为中心的方法，通过在线目录和公共黑客马拉松活动进行元数据的收集，以解决大型语言模型数据收集面临的难题，研究结果分析了所得到的资源元数据分布情况，并总结了在此项目中的经验教训。

Jan, 2022

数据集：自然语言处理社区的共享库

该研究论文探讨了一个名为 Datasets 的 NLP 数据集库，旨在通过标准化终端用户接口、版本控制和文档，为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端，并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展，在该库中已经包含超过 650 个独特的数据集，有 250 多名贡献者，并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。

Sep, 2021