多种网络爬虫算法的比较分析
本文介绍了针对文本数据的关键词提取和文本摘要的处理方法,介绍了一种基于 TextRank 算法的无监督学习方法,在其基础上提高了算法的效率,并针对其忽略了不同部分的语义相似性进行了改进。此外,还开发了一种基于该框架的主题聚类算法,可单独使用或作为生成摘要的一部分来解决文本覆盖问题。
Dec, 2022
通过分析现有的聚类算法,我们在五个不同的维度上对主要算法进行分类,以帮助研究人员从不同的角度理解聚类算法,并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向,以及该领域的挑战和未解决的问题。
Jan, 2024
研究长文档分类任务使用标准的机器学习方法(如 Naive Bayes 和 BERT),在六个文本分类数据集上进行了广泛的算法比较研究,发现 BERT 模型性能稳定良好,但基于传统机器学习模型(如 BiLSTM 和 GloVe)也能在大多数数据集上表现出色,只在较困难的数据集(如 IMDB 情感分析)中对性能提升明显。
Nov, 2021
研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法,结果表明:基于关键词列表的检索方法容易出现偏见,而主动有监督学习方法在使用合适数量的已标记训练实例时,能够显著提高检索效果。
May, 2022
本研究比较了统计和基于图形的术语加权方法,揭示了较少知名的词汇特异性相对于 tf-idf 的优势,以及统计和基于图形方法之间的定性差异,并提出了有关从业人员的建议。
Apr, 2021
经过评估,本文旨在展示经典的机器学习算法(如决策树、Boosting、支持向量机、k 最近邻算法和浅层人工神经网络)在处理稀疏数据的分类任务中的效果,并观察数据噪声增加时对这些算法的影响,以及不同参数对分类准确性的提升。研究表明,即使在有限的数据集和嘈杂的环境下,这些经典算法依然具有很好的学习性能。
Sep, 2023