利用人群的力量增加社会领域数据科学的能力
数据科学研究正在经历一场由技术、互联网和不断增长的计算能力驱动的革命。我们在此提出,需要创造性地利用科学研究和算法开发社区作为强大创新的轴心,通过关键评估、社区实验和集众智等方式,让这些社区参与科学发现探索,从而带来发展新的数据驱动、可复现且经过充分基准测试的算法解决方案,来解决当前感兴趣的基础性和应用性问题。通过协调社区参与高度复杂和大规模数据的分析,可以找到最佳应对这些挑战的鲁棒方法学。当社区参与采用竞赛形式,也被称为挑战赛时,分析方法的验证在本质上得到解决,建立了性能基准。最后,挑战赛促进跨学科开放创新,创建能够直接或间接协作解决重要科学差距的社区。通过共同努力,参与者可以解决诸如健康研究、气候变化和社会公正等各种重要问题。最重要的是,挑战赛可以催化和加速将复杂数据合成知识或可执行信息的过程,应被视为一个产生持久社会和研究贡献的强大工具。
Dec, 2023
本篇研究介绍了 Crowdbreaks 平台,一种利用持续众包标注公共社交媒体内容的开放式平台,使公共卫生机构能够找到可靠的可追踪的卫生趋势,通过平台持续的数据采集、过滤、标注和训练机器学习分类器的典型工作流程,极大地加速了公共卫生领域的研究过程。
May, 2018
通过研究 Kaggle 竞赛结果,发现大多数 Kaggle 数据集的间歇性和熵比 M - 竞赛更高,全球组合模型往往优于本地单一模型,并且发现梯度提升决策树的强大性能,神经网络预测的成功率越来越高,各种技术都与机器学习模型相适应。
Sep, 2020
基于作者自身经验和 80 多个 datathon 挑战活动以及 60 多个合作伙伴组织自 2016 年以来的见解,我们提供了指引和建议,作为组织者在 datathon 的数据相关复杂性中导航的资源,并将我们提出的框架应用于 10 个案例研究。
Sep, 2023
本研究提出了一种方法,对社交媒体进行灵活的支持,特别是在紧急情况下的社交媒体分析,基于自动化数据处理的工具可用于筛选、分类和地理位置标记内容,同时杂交方法支持人工数据分析师的反馈和建议,从民众中收集输入。通过 Euroopean 项目中的三个案例研究进行结果验证。
Aug, 2022
本研究分析了在多家模型提供商竞争市场环境下,机器学习模型的规模对预测准确度的影响,并发现在某些情况下,即使提高数据表示质量可以减少贝叶斯风险,但整体而言也会导致跨用户的总体预测准确性下降。
Jun, 2023
通过竞赛平台的众包机器学习是一种流行且常见的方法,这篇论文开发了一种另类的众包框架来整合社区反馈,以解决群体不公平问题,并提供了关于部署这种框架的具体指导。
Feb, 2024
本研究从理论角度研究了竞争阈值模型的可学习性,并证明了基于有限 VC 维度的人工神经网络能够无缝地对竞争阈值模型进行仿真,从而实现了分析样本复杂度和泛化界限。我们设计了有效的算法,并将理论洞见最终转化为实用和可解释的建模方法,其有效性通过几个合成和真实数据集的健全性检查得到验证。实验结果有希望表明,我们的方法不使用过多数据点便可以获得相当不错的性能,并且胜过现成的方法。
May, 2022
提出了一种基于预测市场的众包学习机制方法,参与者可以通过赌注来修改推理任务的当前假设,并获得相应的盈利,以此改善预测的性能,从而解决了以往机器学习竞赛所存在的诸多弊端。
Nov, 2011