PIKS: 一种通过开放医疗数据为政策制定者识别可操作趋势的技术

Apr, 2023

PIKS: 一种通过开放医疗数据为政策制定者识别可操作趋势的技术

PIKS: A Technique to Identify Actionable Trends for Policy-Makers Through Open Healthcare Data

A. Ravishankar Rao, Subrata Garai, Soumyabrata Dey, Hang Peng

TL;DR本文介绍了一种名为 PIKS 的高效异常检测技术，并将其应用于纽约和加州公共医疗保健数据集，以快速发现出现的趋势和异常情况，提高公共卫生政策的应对能力，并相较于现有的异常检测技术， PIKS 技术具有更少的超参数需要调整，因此具有更好的快速数据探索优势。

Abstract

With calls for increasing transparency, governments are releasing greater amounts of data in multiple domains including finance, education and healthcare. The efficient exploratory analysis of healthcare data constitutes a significant challenge. Key concerns in →

outlier detection healthcare data public health piks technique data exploration

发现论文，激发创造

一个用于探索大数据的系统：迭代 k-means searchlight 在公开的健康数据上进行离群点检测

系统使用迭代 K-means 聚类算法，并结合 Subset Scan Technique 技术，在分析纽约州开放的医疗保健数据中找出包括某些医院成本溢出和自杀病例增加等异常趋势，并得出了新的研究结果，对监管机构、决策者和关注公民具有潜在的作用。

Apr, 2023

基于 KPI 的高性能计算作业的聚类与可视化：一种特征降维方法

该研究论文介绍了一种基于 KPI 指标的高性能计算任务聚类方法，并结合主成分分析技术对结果进行可视化分析，通过对 CPU 使用率进行聚类分析得出了较好的结果。

Dec, 2023

隐私保护的统计数据生成：用于脓毒症检测的应用

在生物医学领域中，合成数据生成方法的兴起为数据驱动技术提供了有希望的机会。本研究提出了一种统计方法用于分类问题的合成数据生成。我们评估了核密度估计和 K 最近邻采样（KDE-KNN）生成的合成数据在现实环境中的实用性和隐私影响，特别关注其在败血症检测中的应用。我们强调了 KDE-KNN 相对于当前合成数据生成方法的优势，并考察了合成数据引入模型训练过程的效果。这项研究为了解合成数据生成技术在缓解生物医学领域的监管约束方面的有效性提供了宝贵的见解。

Apr, 2024

利用 EHR 中信息缺失的核在多变量时间序列中进行挖掘

本研究提出了一种新的核方法，名为 TCK$_{IM}$，通过集成学习策略和新型混合贝叶斯混合模型，能够有效利用电子健康记录中的多变量时间序列的缺失数据，避免了插值方法的使用，具有无标签学习的鲁棒性。通过在三个真实世界的临床数据集上进行实验，证明了所提出核方法的有效性。

Feb, 2020

基于患者的知识图谱研究：现有方法、挑战和应用综述

病患中心知识图谱（PCKGs）是医疗保健领域的重要转变，通过以整体性和多维度的方式映射患者的健康信息，聚焦于个体化患者护理。这篇文献综述探讨了 PCKGs 的方法学、挑战和机遇，以及它们在整合不同医疗保健数据和通过统一的健康视角增强患者护理方面的作用。此外，本文还讨论了 PCKG 发展的复杂性，包括本体设计、数据整合技术、知识提取以及知识的结构化表示等。文章强调了推理、语义搜索和推理机制等先进技术在构建和评估可行的 PCKGs 时的重要性，并进一步探讨了 PCKGs 在个体化医学中的实际应用，强调了它们在改善疾病预测和制定有效治疗计划方面的重要性。总体而言，本文提供了关于 PCKGs 当前技术和最佳实践的基础视角，指导未来在这一动态领域的研究和应用。

Feb, 2024

MTAD：多元时间序列异常检测工具与基准

通过综述与评估 12 种最先进的 KPI 异常检测方法并提出了一种新的评估指标 “显著性”，该研究为未来的学术研究与工业应用提供了基础。

Jan, 2024

KPI 异常检测的自适应阈值启发法

本文提出了一种自适应阈值启发式方法（ATH），用于根据数据分布的本地特性动态调整检测阈值，以适应时间序列模式的变化，并通过期望的周期性和观察到的异常比例来计算阈值，以在时间序列 KPI 的异常检测中减少误判和处理概念漂移。实验结果表明，ATH 计算效率高，适用于准实时异常检测，并可与多个预测器和异常检测器灵活配合使用。

Aug, 2023

用公开的医疗保健数据构建医疗费用预测模型

利用机器学习技术基于患者诊断和人口统计学数据构建预测模型，并使用决策树方法进行预测，其结果优于先前研究的类似问题报告的结果，因此有望降低医疗保健成本。

Apr, 2023

pyAKI - 一个自动 KDIGO 分类的开源解决方案

pyAKI 是一个开源、高精度的应用时间序列数据实现 Acute Kidney Injury（AKI）诊断 KDIGO 标准的解决方案。

Jan, 2024

基于 KPI 的高性能计算数据中心作业聚类的无监督方法

高性能计算系统中的性能分析是一项重要任务，本文主要贡献是识别出最适合于根据高性能计算系统中作业行为对其进行分类的度量标准，并验证了网络流量监测相关的度量标准与层次聚类算法在此任务中的适用性。

Dec, 2023