大规模评估主题模型和降维方法在二维文本空间化中的应用

Jul, 2023

大规模评估主题模型和降维方法在二维文本空间化中的应用

Large-Scale Evaluation of Topic Models and Dimensionality Reduction Methods for 2D Text Spatialization

Daniel Atzberger, Tim Cech, Willy Scheibel, Matthias Trapp, Rico Richter...

TL;DR基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化，t-SNE 在降维中的适用性得到验证。

Abstract

topic models are a class of unsupervised learning algorithms for detecting the semantic structure within a text corpus. Together with a subsequent dimensionality reduction algorithm, →

topic models dimensionality reduction spatialization corpora benchmark-based evaluation

发现论文，激发创造

基于词嵌入的主题建模流程

通过结合基于词嵌入、降维和聚类的算法，本研究旨在从未分类的文本集合中获取主题；文本嵌入算法采用了 BERT 模型，这是一种在自然语言处理任务中广泛应用的神经网络架构；为了处理高维数据，使用 UMAP 降维技术，能保留原始数据的局部和全局信息的一部分；K-Means 作为聚类算法，用于获取主题；然后，使用 TF-IDF 统计、主题多样性和主题连贯性来评估主题的含义；该过程的结果显示出较好的数值，因此主题建模是一种可以对无标签文本进行分类或聚类的可行选择。

Oct, 2023

主题模型的几何结构

使用关系顺序结构从平面主题模型中提取概念关系，引入一种适用于主题空间的自顶向下视角的新可视化范例。

Mar, 2024

多语种 Transformer 中的降维技术探索

这篇论文旨在探讨多维降维技术对多语言 Siamese Transformer 模型在语义文本相似性任务上的性能影响，针对 Semantic Textual Similarity Benchmark 进行了测试，并通过可视化结果得出了在高维度嵌入计算中使用降维技术的潜力及其对语义意识任务性能的影响。

Apr, 2022

TopicSifter：通过有针对性的主题建模交互式减少搜索空间

本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统，以帮助用户针对具体目标进行大规模文档检索，包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。

Jul, 2019

警方文本分析：主题建模和空间相对密度估计

本文运用无监督机器学习算法 —— 隐含狄利克雷分配和非负矩阵分解，分析了一个大型警察事件叙述文件的主题分布，并提出了一种 k - 最近邻密度比估计方法来评估每个主题的空间密度比，从而揭示其中的趋势及规律。

Feb, 2022

评估预训练句子嵌入的无监督降维方法

使用预训练语言模型（PLMs）生成的句子嵌入引起了自然语言处理界的广泛关注，因为它们在多种下游应用中以优越的性能表示文本。然而，当在内存或计算受限设备中表示大量句子时，由 PLMs 生成的句子嵌入的高维度会带来问题。作为解决方案，我们评估了无监督的降维方法来降低由 PLMs 生成的句子嵌入的维度。我们的实验结果表明，如主成分分析（PCA）等简单方法可以将句子嵌入的维度降低近 50%，而不会在多个下游任务中造成显著性能损失。令人惊讶的是，在某些任务中，进一步降低维度可以提高某些 PLMs 生成的句子嵌入的性能。

Mar, 2024

Top2Vec：主题的分布式表示

提出了一种基于分布式语义嵌入的主题建模方法 top2vec，不需要预定义的停用词表、词干提取或词形还原等预处理，能够自动确定主题数目，有效地提取语义信息并以主题向量的形式呈现。实验结果表明，top2vec 比传统的生成模型更加优秀。

Aug, 2020

主题模型的网络方法

采用随机块模型方法，针对主题建模中存在的问题，提出了一种更具通用性和原则性的框架，该框架能够自动检测主题数和分级群集单词和文档，从而比 LDA 在统计模型选择方面提供更好的主题模型。

Aug, 2017

科学论文大型单主题文献库的交互式蒸馏

利用机器学习技术构建针对科学文献的目标数据集工具，并通过主题建模进行文献综述，应用于机器学习领域。

Sep, 2023

基于合成语料的主题建模算法新评估框架

该论文提出了一种基于合成语料库的新框架，用于评估概率主题建模算法，通过比较标记在标记级别上的指定主题标签，能够量化种植和推断主题结构之间的一致性。通过实验，揭示了主题模型的相对强度随语料库特征变化的新见解，并首次证明了主题模型的 “不可检测阶段”。并预测了在真实世界语料库中应用的主题建模算法的性能。

Jan, 2019