公共卫生数据流的计算辅助质量控制

Jun, 2023

公共卫生数据流的计算辅助质量控制

Computationally Assisted Quality Control for Public Health Data Streams

Ananya Joshi, Kathryn Mazaitis, Roni Rosenfeld, Bryan Wilder

TL;DR为了更好地检测公共卫生数据中的异常数据点并为公共卫生决策提供支持，我们开发了 FlaSH 框架（Flagging Streams in public Health），该框架可以处理公共卫生数据的统计属性和数据量，具有良好的异常检测效果并被广泛用于公共卫生数据的处理和分析。

Abstract

Irregularities in public health data streams (like COVID-19 Cases) hamper data-driven decision-making for public health stakeholders. A real-time, computer-generated list of the most important, outlying data points from thousands of daily-updated →

public health data outlier detection flash statistical properties data volume

发现论文，激发创造

大规模公共卫生数据流中的异常值排名

基于大规模公共卫生数据流，我们提出了一种新的算法任务，利用层次网络和极值分析，对任意单变量方法在每个流中的输出进行排名，以帮助专家区分最重要的离群值。通过公共卫生数据流的人工专家评估，我们的新算法在传统的离群值检测指标上表现最佳。自 2023 年 4 月以来，专家已开始使用我们的开源 Python 实现，汇报比之前的基准快 9.1 倍找到值得调查的离群值。其他组织可以轻松采用这个实现，从他们量身定制的单变量方法的输出中创建排名。

Jan, 2024

金融和医疗领域的增量异常检测建模：基于流式分析的方法

本文研究了流媒体数据中的离群值检测问题，重点探讨了基于支持向量机、孤立森林、角度、局部离群因子和网络的常见检测方法在金融和医疗领域的应用。结果表明，孤立森林自适应滑动窗口方法是最有效的策略之一，尤其针对高度不平衡的数据集。

May, 2023

基于真实数据的流式学习算法基准测试挑战

本文提出了一个用于挑战流算法的公共数据存储库，其中包含来自文献的最受欢迎的数据集和与公共健康问题有关的新数据集，旨在缓解涉及流分类器和漂移检测器的实验性评估中的数据集选择问题，并对数据分布中不同类型变化及其导致的原因和问题进行了深入的讨论。

Apr, 2020

一种基于实时信号和数据同化的流行病预测参数预测新方法

本文提出了一种新的方法，利用来自各种信息源的新实时信号（例如基于社交媒体的人口密度地图和空气质量数据）来预测流行病学参数，使用多个卷积神经网络（CNN）模型的集合，并使用各种数据源和融合方法来构建稳健的预测，在伦敦的 COVID-19 爆发预测中，气象信号和基于社交媒体的人口密度地图的组合提高了性能和灵活性，并通过数据同化估计了我们系统的状态，从而提高了我们的模型的稳定性和准确性。

Jul, 2023

流式异构图快速内存高效异常检测

StreamSpot 是一种基于聚类的异常检测方法，可以在消耗有限的内存的同时，实时对包含不同节点和边的杂乱图形流进行检测，并可处理超过每秒 100K 条边的数据流。该方法具有良好的性能，并且可以处理从正常浏览器活动到各种攻击情况的各种情况。

Feb, 2016

COVID-19 病例自适应预测的数据驱动方法研究

通过数据驱动的方法和增量学习，该研究针对 SARS-CoV-2 等疫情的不确定性，成功解决了病毒爆发期间的准确预测问题。

Sep, 2023

Crowdbreaks: 使用公共社交媒体数据和众包跟踪健康趋势

本篇研究介绍了 Crowdbreaks 平台，一种利用持续众包标注公共社交媒体内容的开放式平台，使公共卫生机构能够找到可靠的可追踪的卫生趋势，通过平台持续的数据采集、过滤、标注和训练机器学习分类器的典型工作流程，极大地加速了公共卫生领域的研究过程。

May, 2018

数据流轻量级自动特征监测

提出了一种名为 Feature Monitoring 的灵活系统，它能够检测高维度输入数据的数据漂移，并能够观察机器学习算法的行为，该系统的轻量、高效和解释性特征排序可以帮助排查问题和减少添加自定义信号的需求。

Jul, 2022

一种用于快速极性标记大数据流的框架

本文提出了基于 Apache Flink 的 PLStream 框架，通过算法和系统优化处理数据流中的高速未标注数据，成功实现了高质量标注（准确率近 80%）且不需要人工干预的连续未标注数据流（约 16,000 元组 / 秒）。

Mar, 2022

利用发病数据进行疾病爆发和非爆发的早期检测

研究以无实际训练数据为基础，利用基于特征的时间序列分类方法准确预测疾病爆发和非爆发。通过对合成数据和真实数据集的测试，发现在爆发发生之前可以通过统计特征和早期预警信号指示器区分爆发和非爆发序列。

Apr, 2024