多种网络爬虫算法的比较分析

Jun, 2023

Comparative analysis of various web crawler algorithms

Nithin T K, Chandana S, Barani G, Chavva Dharani, M S Karishma

TL;DR本文介绍了网页爬取和页面排名算法在处理海量互联网数据方面的重要性，讨论了五种不同的爬取算法，并旨在确定最有效的算法，以提高互联网导航和信息提取的能力。

Abstract

This presentation focuses on the importance of web crawling and page ranking algorithms in dealing with the massive amount of data present on the World Wide Web. As the web continues to grow exponentially, efficient search and retrieval methods become crucial. →

web crawling page ranking algorithms information retrieval crawling algorithms web navigation

发现论文，激发创造

基于图的语义提取文本分析

本文介绍了针对文本数据的关键词提取和文本摘要的处理方法，介绍了一种基于 TextRank 算法的无监督学习方法，在其基础上提高了算法的效率，并针对其忽略了不同部分的语义相似性进行了改进。此外，还开发了一种基于该框架的主题聚类算法，可单独使用或作为生成摘要的一部分来解决文本覆盖问题。

Dec, 2022

文件相似度算法比较

本文将比较文本相似度算法的三种类别：统计算法、神经网络以及基于语料库与知识的算法，并对它们进行了基准数据集和评估的测试，旨在找到最有效的文本相似度算法。

Apr, 2023

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

聚类算法快速综述

通过分析现有的聚类算法，我们在五个不同的维度上对主要算法进行分类，以帮助研究人员从不同的角度理解聚类算法，并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向，以及该领域的挑战和未解决的问题。

Jan, 2024

长文档分类的比较研究

研究长文档分类任务使用标准的机器学习方法（如 Naive Bayes 和 BERT），在六个文本分类数据集上进行了广泛的算法比较研究，发现 BERT 模型性能稳定良好，但基于传统机器学习模型（如 BiLSTM 和 GloVe）也能在大多数数据集上表现出色，只在较困难的数据集（如 IMDB 情感分析）中对性能提升明显。

Nov, 2021

在检索相关文档的分析上，解决不平衡分类问题的方法比较

研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法，结果表明：基于关键词列表的检索方法容易出现偏见，而主动有监督学习方法在使用合适数量的已标记训练实例时，能够显著提高检索效果。

May, 2022

回归基础：计量分析统计和基于图的术语加权方案对关键词提取的影响

本研究比较了统计和基于图形的术语加权方法，揭示了较少知名的词汇特异性相对于 tf-idf 的优势，以及统计和基于图形方法之间的定性差异，并提出了有关从业人员的建议。

Apr, 2021

经典算法是公平学习者：对自然天气和野火发生的分类分析

经过评估，本文旨在展示经典的机器学习算法（如决策树、Boosting、支持向量机、k 最近邻算法和浅层人工神经网络）在处理稀疏数据的分类任务中的效果，并观察数据噪声增加时对这些算法的影响，以及不同参数对分类准确性的提升。研究表明，即使在有限的数据集和嘈杂的环境下，这些经典算法依然具有很好的学习性能。

Sep, 2023

文本挖掘综述：分类、聚类和提取技术

这篇论文探讨了文本挖掘的任务及技术，其中包括文本预处理、分类和聚类，并简要介绍了文本挖掘在生物医药领域中的应用。

Jul, 2017

基于内容的图像检索的近期进展：文献综述

本文评估了 2003 年至 2016 年提出的内容检索图像检索算法，并提出了未来研究的几个方向。

Jun, 2017