Mar, 2023

非临床文本信息检索在癌症相关论坛帖子的高效标注

TL;DR本研究使用分布式计算,文本检索,聚类和分类方法,构建了一个完全功能的原型系统,可以从非临床和免费的在线信息中澄清癌症患者轨迹。聚类结果表明,邻域半径对聚类性能影响最大。达恩麻省理工学院模型可以在 46.1 秒内对 50000 个论坛帖子进行聚类,而 DBSCAN(143.4)和 HDBSCAN(282.3)则需要更多时间。