数据共享平台
通过创建一个公共平台,流行病学家、公共卫生官员、数据生产者和软件开发人员不仅能够共享数据和软件,还能获得在提升其互操作性方面的帮助。在这项研究中,通过 OWL 2 来表示 586 个数据集、54 个软件和 24 种数据格式,并使用逻辑查询来推断潜在的互操作性的软件和数据集的组合以及关于 FAIRness 的统计信息。结果表明,互操作性受到软件输入和输出格式缺乏标准化的限制。通过命名的数据格式在三元存储中进行逻辑搜索,可以识别出大量潜在的互操作的软件和数据集的组合。通过集中和规范化数字对象的表示,能够促进 FAIRness,并使其随时间测量,并识别潜在的互操作的数据和软件的组合。
Nov, 2023
医学成像数据集对人工智能在医疗保健中至关重要,本文调查了社区贡献平台上的医学成像数据集,发现数据管理和共享问题,提出了基于共同管理的模型以改善数据质量。
Feb, 2024
本研究研究了数据集压缩(DC)在 AI 研究中分享保健数据的前景,并取得了有希望的结果,数据集压缩通过压缩容量和加速模型收敛,既实现了正确的去隐私化,又保留了原始的深度学习功能,同时保护数据隐私并加速模型收敛,DC 为多项愿望的保健数据共享开启了新的大门。
May, 2023
数据科学、机器学习和人工智能的最新进展,如大型语言模型的出现,正在导致对可由这些模型处理的数据的不断增加需求。尽管数据来源是应用特定的,而且不可能提供详尽无遗的数据来源清单,但提供一份涵盖多个应用领域的(必然不完整的)数据源列表或综合手册仍将有益于各级资深的数据科学家和机器学习专家。
Sep, 2023
通过实现 FAIR(持久性识别,可发现性,可访问性和重用性)原则,NCI IDC 建立了一个公共图像库,其中包含多个癌症图像收集,该图像库可用于云端的 ML 服务,从而实现了 CompPath 研究的可重复复性。
Mar, 2023
研究了使用 OpenAire、Open Alex、CORDIS 和 Kohesio 等四个热门开放获取科技创新数据源来绘制整个丹麦 STI 生态系统中的气候行动研究的案例,分析这些资源的互操作性是否得到保障,以便更好地整合和补充数据,并提供更全面可靠的证据支持基于证据的政策制定。
Sep, 2022
通过大语言模型引导的数据收集方法 Query of CC,我们构建了高质量的知识数据集 Knowledge Pile,包括数学和知识相关推理能力测试,并开源了我们的数据集和代码,为学术界提供有价值的支持。
Jan, 2024
本研究介绍了一个大型数据收集项目的方法论,强调了文档记录和以人为中心的方法,通过在线目录和公共黑客马拉松活动进行元数据的收集,以解决大型语言模型数据收集面临的难题,研究结果分析了所得到的资源元数据分布情况,并总结了在此项目中的经验教训。
Jan, 2022
该研究论文探讨了一个名为 Datasets 的 NLP 数据集库,旨在通过标准化终端用户接口、版本控制和文档,为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端,并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展,在该库中已经包含超过 650 个独特的数据集,有 250 多名贡献者,并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。
Sep, 2021