关键词machine learning datasets
搜索结果 - 6
- 构建公平数据集的挑战分类
通过与 30 名机器学习数据集策展人的访谈,我们提出了一套全面的数据集策划生命周期中遇到的挑战和权衡的分类法。我们的研究结果突显了整体公平性景观中影响数据策展的普遍问题。最后,我们提出了旨在促进系统性变革以更好地推动公平数据集策划实践的建议 - 机器学习研究中的 “文档债务”:《BookCorpus》回顾性数据表
本文旨在帮助解决 BookCorpus 数据集的文档债务问题,提供初步数据表,揭示了该数据集存在违反版权限制、大量重复书籍以及流派偏差等问题,并呼吁更加注意和系统化的机器学习数据集文档化工作。
- 贝叶斯神经常微分方程
本文讨论了如何通过整合贝叶斯学习框架来量化神经普通微分方程中权重的不确定性,并且展示了在 MNIST 数据集上使用 GPU 加速的 No-U-Turn MCMC 采样器、Stochastic Gradient Hamiltonian Mon - 让人民参与进来:争夺基准机器学习数据集
研究了机器学习数据集背后的历史、价值观和规范,以及影响数据收集选择的价值观,并描述了机器学习中基准数据集的运作方式和为这些数据集提出的四个研究问题,从而更好地了解数据构建中的劳动,为研究人员提供新的争论途径。
- 从 ImageNet 到图像分类:基准测试上的进展与语境
通过人工研究这项工作研究了采用众包数据收集管道构建丰富的机器学习数据集的后果,重点关注了流行的 ImageNet 数据集,在 ImageNet 创建过程中特定的设计选择如何影响所得到的数据集的保真度,以及噪声数据收集管道如何导致所得基准与其 - VizWiz 数据集浏览器:一种可视化机器学习数据集的工具
本研究提出了一种可视化工具,用于穷尽性地搜索和浏览大规模机器学习数据集。该工具搭建在 VizWiz 数据集的基础上,可支持和促进定性和定量研究,并开启多模态信息的可视化和研究新方向。该工具公开在此 URL。