利用人群的力量增加社会领域数据科学的能力

ICMLJun, 2016

利用人群的力量增加社会领域数据科学的能力

Harnessing the Power of the Crowd to Increase Capacity for Data Science in the Social Sector

Peter Bull, Isaac Slavitt, Greg Lipstein

TL;DR本文介绍了三个案例，分别为教育、公共卫生和政府创新领域，这些组织采用数据科学竞赛来回答紧迫问题，并反思了公开竞赛模式的独特优势。

Abstract

We present three case studies of organizations using a data science competition to answer a pressing question. The first is in education where a nonprofit that creates smart school budgets wanted to automatically tag budget line items. The second is in →

data science competition education public health government innovation open public competition

发现论文，激发创造

AI 竞赛和基准测试：挑战和基准测试的生命周期

数据科学研究正在经历一场由技术、互联网和不断增长的计算能力驱动的革命。我们在此提出，需要创造性地利用科学研究和算法开发社区作为强大创新的轴心，通过关键评估、社区实验和集众智等方式，让这些社区参与科学发现探索，从而带来发展新的数据驱动、可复现且经过充分基准测试的算法解决方案，来解决当前感兴趣的基础性和应用性问题。通过协调社区参与高度复杂和大规模数据的分析，可以找到最佳应对这些挑战的鲁棒方法学。当社区参与采用竞赛形式，也被称为挑战赛时，分析方法的验证在本质上得到解决，建立了性能基准。最后，挑战赛促进跨学科开放创新，创建能够直接或间接协作解决重要科学差距的社区。通过共同努力，参与者可以解决诸如健康研究、气候变化和社会公正等各种重要问题。最重要的是，挑战赛可以催化和加速将复杂数据合成知识或可执行信息的过程，应被视为一个产生持久社会和研究贡献的强大工具。

Dec, 2023

Crowdbreaks: 使用公共社交媒体数据和众包跟踪健康趋势

本篇研究介绍了 Crowdbreaks 平台，一种利用持续众包标注公共社交媒体内容的开放式平台，使公共卫生机构能够找到可靠的可追踪的卫生趋势，通过平台持续的数据采集、过滤、标注和训练机器学习分类器的典型工作流程，极大地加速了公共卫生领域的研究过程。

May, 2018

Kaggle 预测竞赛：一个被忽视的学习机会

通过研究 Kaggle 竞赛结果，发现大多数 Kaggle 数据集的间歇性和熵比 M - 竞赛更高，全球组合模型往往优于本地单一模型，并且发现梯度提升决策树的强大性能，神经网络预测的成功率越来越高，各种技术都与机器学习模型相适应。

Sep, 2020

如何在数据马拉松中处理数据

基于作者自身经验和 80 多个 datathon 挑战活动以及 60 多个合作伙伴组织自 2016 年以来的见解，我们提供了指引和建议，作为组织者在 datathon 的数据相关复杂性中导航的资源，并将我们提出的框架应用于 10 个案例研究。

Sep, 2023

响应项目建议书的开放数据驱动团队推荐，促进研究合作

利用各种人工智能方法建议团队、评估团队质量并验证用户满意度，用以推荐和匹配研究机构与研究人员之间的合作机会。

Sep, 2023

在 Crowd4SDG 中使用众包分析社交媒体

本研究提出了一种方法，对社交媒体进行灵活的支持，特别是在紧急情况下的社交媒体分析，基于自动化数据处理的工具可用于筛选、分类和地理位置标记内容，同时杂交方法支持人工数据分析师的反馈和建议，从民众中收集输入。通过 Euroopean 项目中的三个案例研究进行结果验证。

Aug, 2022

在竞争环境下，改进的贝叶斯风险可能导致社会福利的减少

本研究分析了在多家模型提供商竞争市场环境下，机器学习模型的规模对预测准确度的影响，并发现在某些情况下，即使提高数据表示质量可以减少贝叶斯风险，但整体而言也会导致跨用户的总体预测准确性下降。

Jun, 2023

多样化集成：众包机器学习实验

通过竞赛平台的众包机器学习是一种流行且常见的方法，这篇论文开发了一种另类的众包框架来整合社区反馈，以解决群体不公平问题，并提供了关于部署这种框架的具体指导。

Feb, 2024

竞争门限模型的可学习性

本研究从理论角度研究了竞争阈值模型的可学习性，并证明了基于有限 VC 维度的人工神经网络能够无缝地对竞争阈值模型进行仿真，从而实现了分析样本复杂度和泛化界限。我们设计了有效的算法，并将理论洞见最终转化为实用和可解释的建模方法，其有效性通过几个合成和真实数据集的健全性检查得到验证。实验结果有希望表明，我们的方法不使用过多数据点便可以获得相当不错的性能，并且胜过现成的方法。

May, 2022

众包预测问题的协作机制

提出了一种基于预测市场的众包学习机制方法，参与者可以通过赌注来修改推理任务的当前假设，并获得相应的盈利，以此改善预测的性能，从而解决了以往机器学习竞赛所存在的诸多弊端。

Nov, 2011