Apache Spark 下的分布式医疗数据记录链接

Mar, 2024

Apache Spark 下的分布式医疗数据记录链接

Distributed Record Linkage in Healthcare Data with Apache Spark

Mohammad Heydari, Reza Sarshar, Mohammad Ali Soltanshahi

TL;DR利用 Apache Spark 机器学习库，开发了一种新的分布式数据匹配模型，通过使用 SVM 和回归算法解决数据不平衡问题，实现了在医疗数据上的良好性能。

Abstract

healthcare data is a valuable resource for research, analysis, and decision-making in the medical field. However, healthcare data is often fragmented and distributed across various sources, making it challenging

healthcare data record linkage apache spark distributed data-matching model machine learning

发现论文，激发创造

Apache Spark 中的机器学习

本文介绍了 Apache Spark 的开源分布式机器学习库 MLlib，它支持迭代的机器学习任务和端到端机器学习流程。

May, 2015

医疗协作深度学习的分离学习

本研究采用基于分离学习的分布式学习方法，首次将其应用于医学领域，并使用 9000 张眼底照片的二元分类问题和 156,535 张胸部 X 射线的多标记分类问题进行比较。结果表明，相对于单一中心研究和非协作配置，分离学习配置具有更好的性能，这证实了在卫生保健领域中采用深度神经网络的协作培训的益处，并为未来实际应用铺平了道路。

Dec, 2019

可扩展的隐私保护分布式学习

使用多方同态加密技术实现，SPINDLE 是第一种覆盖完整机器学习工作流程的，可进行联合梯度下降执行和模型评估，并在保护数据和模型机密性方面具有无侵入者的被动攻击模型，为分布式数据集上的广义线性模型的培训和评估提供了一种高效保证隐私的解决方案。

May, 2020

ML Health: 为生产模型提供的健身追踪

ML Health 为监测机器学习模型预测性能潜在下降提出了一种诊断方法，并将该方法应用于一种实现了全生产生命周期的系统中，来自动化追踪并生成进一步调查的警报。

Feb, 2019

健康信息学中深度学习模型的分布式协作训练的分割学习

深度学习在医疗预测任务上表现出了非凡的潜力，但跨医疗机构推广具有挑战性。本文介绍了如何通过分割学习实现跨不同医疗数据集的深度学习模型协作训练，并保持原始记录和模型参数的私密性。通过多个医学成像和电子健康记录数据集，研究表明，通过分割学习训练的深度学习模型可以实现与集中式和联邦学习相似的性能，同时大大提高计算效率并减少隐私风险。

Aug, 2023

使用 Spark NLP 优化 COVID-19 研究的临床文档理解

该研究构建了一个临床文本挖掘系统，利用命名实体识别和深度学习模型优化了现有技术，能够从 COVID-19 研究数据集中提取潜在趋势和洞见，支持分布式集群计算以及新增实体类型或人类语言训练模型无需编程。

Dec, 2020

DeepSpark：一个基于 Spark 的商用集群分布式深度学习框架

本文介绍了 DeepSpark，这是一个利用 Apache Spark 在普通集群上进行分布式和并行的深度学习的框架，它通过异步的弹性平均随机梯度下降算法迭代地聚合训练结果，以解决现在深度神经网络训练和大规模数据处理方面面临的挑战。

Feb, 2016

多模态对比学习中的表示链接

该研究开发了一个名为 CLIPPINGS 的多模态框架，它利用端到端训练，对称视觉和语言双编码器，并通过对比语言 - 图像预训练来将它们对齐，以学习一个度量空间，在这个空间中，给定实例的汇总图像 - 文本表示对于同一类别的表示非常接近，对于不同类别的表示则很遥远。该框架在两个应用方面的表现都超过了广泛使用的字符串匹配方法，并且在不需要任何标签的情况下，仅基于图像 - OCR 对进行自我监督训练的纯自监督模型也比受欢迎的字符串匹配方法表现更好。

Apr, 2023

面向计算连续体的智能医疗分布式机器学习

本文探讨了去中心化的分布式账本上机器学习模型对分布式电子个人健康档案进行知识提取的方法，并提出了一个设计概念，能够匿名进行预测性分析，结果表明可降低机器学习时间至 60％，一致性延迟低于 8 秒，适用于各个医疗机构。

Jul, 2022

云上关键事件预测的分布式分层局部敏感哈希

本文介绍了一个用于医疗波形数据的快速相似性预测的分布式系统，它基于层次敏感哈希技术，针对云环境进行了优化，在保证延迟的同时实现了较快的处理速度，并将其应用于急性低血压事件的预测上，取得了较好的效果。

Dec, 2017