公共卫生数据流的计算辅助质量控制
基于大规模公共卫生数据流,我们提出了一种新的算法任务,利用层次网络和极值分析,对任意单变量方法在每个流中的输出进行排名,以帮助专家区分最重要的离群值。通过公共卫生数据流的人工专家评估,我们的新算法在传统的离群值检测指标上表现最佳。自 2023 年 4 月以来,专家已开始使用我们的开源 Python 实现,汇报比之前的基准快 9.1 倍找到值得调查的离群值。其他组织可以轻松采用这个实现,从他们量身定制的单变量方法的输出中创建排名。
Jan, 2024
本文研究了流媒体数据中的离群值检测问题,重点探讨了基于支持向量机、孤立森林、角度、局部离群因子和网络的常见检测方法在金融和医疗领域的应用。结果表明,孤立森林自适应滑动窗口方法是最有效的策略之一,尤其针对高度不平衡的数据集。
May, 2023
本文提出了一个用于挑战流算法的公共数据存储库,其中包含来自文献的最受欢迎的数据集和与公共健康问题有关的新数据集,旨在缓解涉及流分类器和漂移检测器的实验性评估中的数据集选择问题,并对数据分布中不同类型变化及其导致的原因和问题进行了深入的讨论。
Apr, 2020
本文提出了一种新的方法,利用来自各种信息源的新实时信号(例如基于社交媒体的人口密度地图和空气质量数据)来预测流行病学参数,使用多个卷积神经网络(CNN)模型的集合,并使用各种数据源和融合方法来构建稳健的预测,在伦敦的 COVID-19 爆发预测中,气象信号和基于社交媒体的人口密度地图的组合提高了性能和灵活性,并通过数据同化估计了我们系统的状态,从而提高了我们的模型的稳定性和准确性。
Jul, 2023
StreamSpot 是一种基于聚类的异常检测方法,可以在消耗有限的内存的同时,实时对包含不同节点和边的杂乱图形流进行检测,并可处理超过每秒 100K 条边的数据流。该方法具有良好的性能,并且可以处理从正常浏览器活动到各种攻击情况的各种情况。
Feb, 2016
本篇研究介绍了 Crowdbreaks 平台,一种利用持续众包标注公共社交媒体内容的开放式平台,使公共卫生机构能够找到可靠的可追踪的卫生趋势,通过平台持续的数据采集、过滤、标注和训练机器学习分类器的典型工作流程,极大地加速了公共卫生领域的研究过程。
May, 2018
提出了一种名为 Feature Monitoring 的灵活系统,它能够检测高维度输入数据的数据漂移,并能够观察机器学习算法的行为,该系统的轻量、高效和解释性特征排序可以帮助排查问题和减少添加自定义信号的需求。
Jul, 2022
本文提出了基于 Apache Flink 的 PLStream 框架,通过算法和系统优化处理数据流中的高速未标注数据,成功实现了高质量标注(准确率近 80%)且不需要人工干预的连续未标注数据流(约 16,000 元组 / 秒)。
Mar, 2022
研究以无实际训练数据为基础,利用基于特征的时间序列分类方法准确预测疾病爆发和非爆发。通过对合成数据和真实数据集的测试,发现在爆发发生之前可以通过统计特征和早期预警信号指示器区分爆发和非爆发序列。
Apr, 2024