PDC - 一种概率分布聚类算法:对 PubMed 自杀文章的案例研究
本研究使用两种不同的聚类算法(K 均值聚类和预定义质心聚类)展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后,选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要隐私政策文档。摘要模型的簇中心是根据《通用数据保护条例》中 14 个必须包含在任何隐私声明中的主题进行定义。在两种评估方法(平方距离和 ROUGE)中,预定义质心模型的性能优于 K 均值模型(分别提高了 27% 和 24%)。这一结果与 K 均值模型在运行特定任务评估之前对句子向量的一般聚类效果更好形成对比,表明在无监督机器学习模型上应用特定任务的精调措施的有效性。本文实施的摘要机制展示了一种高效提取隐私政策文档中应包含的重要句子的思路。这些摘要模型可以进一步发展为测试隐私政策文档的《通用数据保护条例》(或任何数据隐私法规)合规性的应用。
Apr, 2024
本研究使用分布式计算,文本检索,聚类和分类方法,构建了一个完全功能的原型系统,可以从非临床和免费的在线信息中澄清癌症患者轨迹。聚类结果表明,邻域半径对聚类性能影响最大。达恩麻省理工学院模型可以在 46.1 秒内对 50000 个论坛帖子进行聚类,而 DBSCAN(143.4)和 HDBSCAN(282.3)则需要更多时间。
Mar, 2023
本文介绍了一种新的 Federated Learning 算法 FedPDC,通过使用某些行业的共享数据集来优化本地模型的聚合方式和本地训练的损失函数。在许多基准实验中,FedPDC 可以在极度不平衡的数据分布情况下有效提高全局模型的准确性,同时确保客户数据的隐私保护,而且准确性提升不会带来额外的通信成本。
Feb, 2023
通过比较临床判断和随机机器学习模型的预测效果,我们研究了三种最有效的随机机器学习技术(随机森林,梯度提升机和带有中断的深度神经网络)在预测阿瑟灵危险因素方面的效力。
May, 2016
本文介绍了一个新的语音数据集 DEPAC,用于基于手动筛选出的语音特征和人口统计信息,分析对焦于抑郁和焦虑的机器学习模型的影响,从而提高自动诊断系统的性能。
Jun, 2023
本研究分析使用深度上下文表示法的确定性点过程在提取式摘要中的应用,表明虽然使用深度表示法有一定效果,但仍需要使用表面指标来更好地识别摘要句。
Oct, 2019
通过微博等社交媒体识别自杀高危人群,实现积极的干预系统,本研究针对新浪微博的 1041 个用户,采用中文版 Linguistic Inquiry and Word Count(LIWC)词库和 LDA 等 NLP 方法提取语言特征,基于这两种特征通过机器学习算法训练预测模型,以估算基于语言特征的自杀概率。实验结果表明,LDA 能够找到与自杀概率相关的主题并提高预测性能,此研究为预测社交网络用户自杀概率行为增加了价值。
Nov, 2014