通过投影熵聚类单词

NIPSOct, 2014

Clustering Words by Projection Entropy

Işık Barış Fidaner, Ali Taylan Cemgil

TL;DR应用熵聚类算法对文学文本进行聚类分析，实验结果表明该算法具有在捕捉文本中单词之间显著关系方面的实用性。

Abstract

We apply entropy agglomeration (EA), a recently introduced algorithm, to cluster the words of a literary text. EA is a greedy agglomerativ

entropy agglomeration literary text feature allocation algorithm python

发现论文，激发创造

英语单词的分布式聚类

该研究提出并实验评估了一种利用确定性退火方法将单词自动聚类的方法，使得聚类结果成为一种层次结构的软聚类，并将其用作词共现的类模型基础，然后利用测试数据进行了评估。

Aug, 1994

分区和特征分配的摘要统计

本文提出了一种基于区块大小的统计量，并且采用基于元素的熵的定义来量化其分割信息，并且使用熵聚类算法简化和可视化信息，实验证明这种统计量在实践中非常有用，使用于各种无限混合后验及特征分配数据集。

Oct, 2013

PE：一种用于快速文本层次生成的 Poincare 解释方法

该研究介绍了一种称为 Poincaré 解释（PE）的新方法，在 O (n^2logn) 时间复杂度内使用双曲空间建模特征交互，并证明了在投影空间中的层次聚类过程可以视为构建最小生成树，并提出了一种时间高效的算法。实验结果证明了我们方法的有效性。

Mar, 2024

一种基于信息熵负载的聚类方法

本文提出了一种基于信息理论的聚类方法，通过该方法聚类结果的熵载荷能够最大化，避免了需要预设特定参数的问题，可用于图像分割、对象分类等领域，也可作为无监督学习的基础。

Sep, 2022

熵感知的相似度用于平衡聚类：以黑素瘤检测为例

本文提出了一种新的基于 entropy-aware similarity 的方法用于 balanced clustering, 通过将熵纳入一个新的相似度公式中，将不平衡的数据进行互补聚类来最大化平衡度，实现成功聚类和患者黑色素瘤的识别。

May, 2023

用熵正则化提升推荐系统的主题提取

本文提出了一种新的方法 —— 熵正则化来解决推荐系统中主题内的关键词连贯性不足的问题，从而提高主题的可解释性，并确保主任务的性能竞争力。实验结果表明，该策略显著提高了主题的连贯性。

Jun, 2023

超越标签：基于距离分布熵的聚类分析进展 (EDD)

该研究论文介绍了一种新的无标签聚类分析方法，称为距离分布熵（EDD），它通过量化数据集中数据点间的距离特征差异来判断聚类倾向，具有更好的兼容性和鲁棒性，可用于解析复杂数据结构。

Nov, 2023

使用分层凝聚聚类分割说明性文本

本文提出了一种基于分层凝聚聚类的说明性文本分段方法，该方法使用段落作为基本段落，通过它们之间的词汇相似度进行文本的分层话结构识别。该算法已经证明与现有的线性分割方法具有可比较的结果。

Sep, 1997

通过数据相关和随机投影的主题发现

本文介绍了基于跨文档词频模式几何的主题建模算法，并提出了适应数据的算法和随机投影算法，探讨了先验密度对数据相关投影方法的统计保证以及最大和最小值与新颖单词的联系，作者通过在人造数据集和实际数据集上进行的实验表明了该方案的定量和定性优点。

Mar, 2013

层次密度排序嵌入

本论文提出了一种基于概率密度的单词嵌入模型 —— 密度顺序嵌入模型。该模型通过实现简单而有效的损失函数和距离度量以及基于图的方案选择负样本，学习到分层的概率密度表示。实验结果表明，此方法在 WordNet 层级关系预测任务和 HyperLex 语义蕴涵数据集上表现出了最先进的性能，并保留了丰富而可解释的密度表示。

Apr, 2018