PDC - 一种概率分布聚类算法：对 PubMed 自杀文章的案例研究

MMDec, 2019

PDC - 一种概率分布聚类算法：对 PubMed 自杀文章的案例研究

PDC -- a probabilistic distributional clustering algorithm: a case study on suicide articles in PubMed

Rezarta Islamaj, Lana Yeganova, Won Kim, Natalie Xie, W. John Wilbur...

TL;DR本文提出一种名为 PDC（概率分布聚类）的新算法，可以将文档集合中的词项划分为代表集合中的主题，从而帮助研究者更好地理解特定主题的文献资料，同时提供一个可视化的环境，以支持 PubMed 中相关领域的多面数据查询。

Abstract

The need to organize a large collection in a manner that facilitates human comprehension is crucial given the ever-increasing volumes of information. In this work, we present PDC (probabilistic distributional clustering), a novel algorithm that, given a →

probabilistic distributional clustering document collection term sets visualization pubmed

发现论文，激发创造

使用机器学习方法的隐私政策文件摘录文本自动化总结

本研究使用两种不同的聚类算法（K 均值聚类和预定义质心聚类）展示了两个隐私政策摘要模型。在评估了十种常用聚类算法后，选择了 K 均值作为第一个模型的聚类算法。基于预定义质心聚类算法的摘要模型通过欧氏距离将每个句子与预定义簇中心进行分离来摘要隐私政策文档。摘要模型的簇中心是根据《通用数据保护条例》中 14 个必须包含在任何隐私声明中的主题进行定义。在两种评估方法（平方距离和 ROUGE）中，预定义质心模型的性能优于 K 均值模型（分别提高了 27% 和 24%）。这一结果与 K 均值模型在运行特定任务评估之前对句子向量的一般聚类效果更好形成对比，表明在无监督机器学习模型上应用特定任务的精调措施的有效性。本文实施的摘要机制展示了一种高效提取隐私政策文档中应包含的重要句子的思路。这些摘要模型可以进一步发展为测试隐私政策文档的《通用数据保护条例》（或任何数据隐私法规）合规性的应用。

Apr, 2024

非临床文本信息检索在癌症相关论坛帖子的高效标注

本研究使用分布式计算，文本检索，聚类和分类方法，构建了一个完全功能的原型系统，可以从非临床和免费的在线信息中澄清癌症患者轨迹。聚类结果表明，邻域半径对聚类性能影响最大。达恩麻省理工学院模型可以在 46.1 秒内对 50000 个论坛帖子进行聚类，而 DBSCAN（143.4）和 HDBSCAN（282.3）则需要更多时间。

Mar, 2023

FedPDC：面向公共数据集纠错的联邦学习

本文介绍了一种新的 Federated Learning 算法 FedPDC，通过使用某些行业的共享数据集来优化本地模型的聚合方式和本地训练的损失函数。在许多基准实验中，FedPDC 可以在极度不平衡的数据分布情况下有效提高全局模型的准确性，同时确保客户数据的隐私保护，而且准确性提升不会带来额外的通信成本。

Feb, 2023

随机机器学习方法评估冗余数据：从行政记录和风险评估中预测短期和中期自杀风险

通过比较临床判断和随机机器学习模型的预测效果，我们研究了三种最有效的随机机器学习技术（随机森林，梯度提升机和带有中断的深度神经网络）在预测阿瑟灵危险因素方面的效力。

May, 2016

DEPAC: 基于语言的抑郁症和焦虑症检测语料库

本文介绍了一个新的语音数据集 DEPAC，用于基于手动筛选出的语音特征和人口统计信息，分析对焦于抑郁和焦虑的机器学习模型的影响，从而提高自动诊断系统的性能。

Jun, 2023

基于疾病概念的生物医学文档聚类与可视化

本文介绍了一种基于向量表示和自组织映射的医学文献聚类技术，能够提供更好的文献搜索和浏览体验，并在实验中验证了该技术的有效性。

Oct, 2018

利用确定性点过程和情境化表示进行多文档摘要

本研究分析使用深度上下文表示法的确定性点过程在提取式摘要中的应用，表明虽然使用深度表示法有一定效果，但仍需要使用表面指标来更好地识别摘要句。

Oct, 2019

应用于化合物数据集的数据协同分析及投影数据在非独立同分布场景的引入

使用分布式机器学习方法，通过数据协同分析和投影数据，改进了联邦学习系统，提高了药物预测的准确性和分类性能。

Aug, 2023

使用语言学特征估算中国微博用户的自杀概率

通过微博等社交媒体识别自杀高危人群，实现积极的干预系统，本研究针对新浪微博的 1041 个用户，采用中文版 Linguistic Inquiry and Word Count（LIWC）词库和 LDA 等 NLP 方法提取语言特征，基于这两种特征通过机器学习算法训练预测模型，以估算基于语言特征的自杀概率。实验结果表明，LDA 能够找到与自杀概率相关的主题并提高预测性能，此研究为预测社交网络用户自杀概率行为增加了价值。

Nov, 2014

VDPC: 变分密度峰聚类算法

通过识别代表性点、构建初始聚类，再结合 DPC 和 DBSCAN 的优点，使用 VDPC 算法对不同密度分布的数据集进行系统的自动聚类

Dec, 2021