本文提出了一种基于分层凝聚聚类的说明性文本分段方法,该方法使用段落作为基本段落,通过它们之间的词汇相似度进行文本的分层话结构识别。该算法已经证明与现有的线性分割方法具有可比较的结果。
Sep, 1997
本文提出了一种基于迭代分类的短文本聚类方法,该方法通过离群值去除、分类算法训练和重新聚类等操作,使得短文本聚类的准确性得到了显著提升。实验结果表明,相对于其他聚类方法和现有的短文本聚类方法,该方法在多个短文本数据集上的聚类效果更好。
Jan, 2020
本文提出了一种弱监督的神经方法进行层次文本分类,通过生成伪文档进行模型预训练,并在真实无标签数据上进行自我训练,最终得到高效准确的分类模型。
Dec, 2018
本文研究了增量聚类方法的优缺点,发现增量聚类方法相对于批处理模型存在明显的劣势,即无法识别一类基本的聚类结构,但是可以通过增加聚类实现对增量聚类方法的限制的克服。
Jun, 2014
通过聚类单词并组合成文本向量的新文本表示方案,在 5 个分类基准测试中得到了有效的评估结果,并通过可视化分析验证了其有效性。
Jun, 2019
本文综述了层次化多标签文本分类的最新进展,包括开源数据集、主要方法、评估指标、学习策略和当前面临的挑战,并列举了一些未来的研究方向,以便社区进一步改进该领域。
Jul, 2023
本论文通过使用增量算法如 Incremental TextRank 和 IS-TFIDF 来探索文本文档流,并构建了一种文本文档流组织的体系结构,以便更快速地处理大规模文本数据集的聚类能力,并基于文档之间的相似性提供了一种全新的文档组织视角。
May, 2022
本研究讨论了文本分类算法的概述,包括不同的文本特征提取、降维方法、现有算法和技术、评估方法,并探讨了每种技术的限制和在实际问题中的应用。
Apr, 2019
这篇论文探讨了文本挖掘的任务及技术,其中包括文本预处理、分类和聚类,并简要介绍了文本挖掘在生物医药领域中的应用。
Jul, 2017
通过使用方法论分类将算法进行细分并实施实证评估和实验比较,我们的研究是第一篇利用此方法论分类对文本分类算法进行分类的综述论文。
Jan, 2024