增量层次文本聚类方法：综述

Dec, 2023

Incremental hierarchical text clustering methods: a review

Fernando Simeone, Maik Olher Chaves, Ahmed Esmin

TL;DR这篇论文旨在分析 2010 年至 2018 年期间发表的各种层次和增量聚类技术，以进一步组织和比较文本聚类的相关研究，从而提供对该领域研究的更好理解。

Abstract

The growth in internet usage has contributed to a large volume of continuously available data, and has created the need for automatic and efficient organization of the data. In this context, text clustering techn

internet usage data organization text clustering hierarchical clustering incremental clustering

发现论文，激发创造

使用分层凝聚聚类分割说明性文本

本文提出了一种基于分层凝聚聚类的说明性文本分段方法，该方法使用段落作为基本段落，通过它们之间的词汇相似度进行文本的分层话结构识别。该算法已经证明与现有的线性分割方法具有可比较的结果。

Sep, 1997

迭代分类增强短文本聚类

本文提出了一种基于迭代分类的短文本聚类方法，该方法通过离群值去除、分类算法训练和重新聚类等操作，使得短文本聚类的准确性得到了显著提升。实验结果表明，相对于其他聚类方法和现有的短文本聚类方法，该方法在多个短文本数据集上的聚类效果更好。

Jan, 2020

弱监督层次文本分类

本文提出了一种弱监督的神经方法进行层次文本分类，通过生成伪文档进行模型预训练，并在真实无标签数据上进行自我训练，最终得到高效准确的分类模型。

Dec, 2018

增量聚类：额外聚类的情况

本文研究了增量聚类方法的优缺点，发现增量聚类方法相对于批处理模型存在明显的劣势，即无法识别一类基本的聚类结构，但是可以通过增加聚类实现对增量聚类方法的限制的克服。

Jun, 2014

模仿人类过程：通过潜在语义聚类进行文本表示的分类

通过聚类单词并组合成文本向量的新文本表示方案，在 5 个分类基准测试中得到了有效的评估结果，并通过可视化分析验证了其有效性。

Jun, 2019

层次多标签文本分类的最新进展：一项综述

本文综述了层次化多标签文本分类的最新进展，包括开源数据集、主要方法、评估指标、学习策略和当前面临的挑战，并列举了一些未来的研究方向，以便社区进一步改进该领域。

Jul, 2023

文本文件流组织的情境化

本论文通过使用增量算法如 Incremental TextRank 和 IS-TFIDF 来探索文本文档流，并构建了一种文本文档流组织的体系结构，以便更快速地处理大规模文本数据集的聚类能力，并基于文档之间的相似性提供了一种全新的文档组织视角。

May, 2022

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

文本挖掘综述：分类、聚类和提取技术

这篇论文探讨了文本挖掘的任务及技术，其中包括文本预处理、分类和聚类，并简要介绍了文本挖掘在生物医药领域中的应用。

Jul, 2017

文本分类：回顾、实证和实验评估

通过使用方法论分类将算法进行细分并实施实证评估和实验比较，我们的研究是第一篇利用此方法论分类对文本分类算法进行分类的综述论文。

Jan, 2024