- scTree: 在 scRNA-seq 数据中发现细胞层次结构时考虑批次效应
提出了一种新的方法 scTree,用于单细胞树状变分自动编码器,扩展了一种层次聚类方法用于单细胞 RNA 测序数据。通过这种基于 VAE 的方法,同时纠正批次效应和学习树状数据表示,从而深入理解复杂细胞景观,并独立于批次的偏差效应。通过对七 - ICML一种超出最坏情况的图聚类的近线性时间逼近算法
在半随机图模型中,我们研究了平衡切割问题的精确性和时间复杂度,并且提出了第一个近似线性时间算法,以及与相关问题的拓展应用和对半随机分层随机块模型的聚类目标函数进行近似线性时间 O (1) 近似的方法。
- 基于超公度特征场的视图一致的分层三维分割
通过使用 Neural Radiance Field 中的新颖特征场,本研究提出了一种将多粒度、视角不一致的图像分割转化为层次化、3D 一致的表示的方法。通过在不同距离阈值下观察特征距离,可以揭示不同尺度下的分段结构。将视角不一致的多粒度 - 聚类算法中完全连通和其他连通方法的内聚度的新界限
我们改进了关于完全连接法在度量空间中得到的聚类最大直径的现有限制,其中一种新的限制能够在直径的近似度上将完全连接法与单连接法进行区分,从而验证了当目标是生成紧凑聚类时,前者比后者更适用。我们还展示了我们的技术可以用于推导包括非常流行的平均连 - 无标签主题聚焦摘要生成的查询增强
这项研究介绍了一种新的方法,增强型查询摘要(AQS),用于针对主题的摘要,无需大量标记数据集,利用查询扩展和分层聚类。通过 real-world 测试,我们的方法展示了生成相关和准确的摘要的能力,显示其在数据丰富环境中作为一种经济高效的解决 - 通过层次聚类压缩非线性物理模型的库普曼矩阵
机器学习方法允许仅通过数据预测非线性动态系统。其中之一是库普曼算子,它使我们能够对非线性动态系统使用线性分析。延伸的动态模态分解是近似库普曼算子为有限维矩阵的方法之一。我们提出了一种使用分层聚类对库普曼矩阵进行压缩的方法。在小车杆模型上进行 - 技能:相似度感知的语音自我监督学习知识蒸馏
通过引入 SKILL 方法,本文在自我监督学习研究领域提出了一种新的方法,通过层分组而非个别层进行知识蒸馏,实验结果表明,我们的 WavLM Base + 的蒸馏版本不仅优于 DPHuBERT,还在 30M 参数模型类的多个任务中达到了最先 - 通过聚类进行偏好学习的分层在线专家框架
利用低维潜在空间加速用户偏好学习的层次聚类框架可提供高效的出行推荐算法,特别适用于具有层次结构的环境中降低遗憾度。
- PANDORA:单链接聚类的并行树状图构建算法在 GPU 上的应用
本研究提出了一种针对单链接层次聚类(包括 hdbscan)高效构建树状图的新型并行算法 pandora,通过独特的递归树合并方法以及支持 GPU 加速的实现,使 pandora 在处理实际数据中的倾斜树时无需考虑渐进性工作最优,相较于目前最 - 增量层次文本聚类方法:综述
这篇论文旨在分析 2010 年至 2018 年期间发表的各种层次和增量聚类技术,以进一步组织和比较文本聚类的相关研究,从而提供对该领域研究的更好理解。
- 公平的多项式对数逼近低成本层次聚类
公平机器学习领域的关键问题是公平聚类算法的研究,特别是在现代智能系统引发了许多伦理争议的情况下。Ahmadian 等人提出了针对分层聚类的公平性研究,但他们的算法是高度理论化的。Knittel 等人提出了第一个实际的成本公平近似算法,但未能 - 关于大型语言模型的起源:15821 个 LLM 的演化树和图
利用 Hugging Face LLMs 的系统性命名法,通过使用 n-grams 和词频 - 逆文档频率进行层次聚类,我们成功地识别出一个个 LLMs 家族,并将其准确地聚类成有意义的子群。我们还提供了一个公共网络应用程序,用于浏览和探索 - 用最小描述长度聚类法度量有意义图片复杂度
提出了一种基于层次聚类和最小描述长度的图像复杂度衡量方法,可以正确识别出白噪声图像,并在多组实验中表现出最准确的衡量结果,同时还可以从不同层次的聚类中揭示出复杂度的局部和全局特征以及相关构成因素。
- ICML针对良好聚类图的近似最优层次聚类
本文提出两种高效的分层聚类算法,针对 Dasgupta 成本函数。对于任何有明确集群结构的输入图 G,我们设计的算法在 G 的输入大小几乎为线性的时间内运行,并返回一个相对于 Dasgupta 成本函数的 O (1) 近似 HC 树。我们将 - 从下而上何时在层次社区检测中优于从上而下?
本文介绍了一种基于 自上而下 (top-down) 算法 的层次聚类的算法;通过实验,发现了这种算法与传统的 自下而上 (bottom-up) 的算法相比,可以更好地恢复精细的社区结构,并可在模型的中间层次上取得信息学门槛下的恢复。
- 通过测量任务对齐度分析文本表征
通过任务对齐得分,本研究提出了一种方法来衡量文本表示对于文本分类的作用,实验证明这种方法能够解释给定的表示法在分类性能上表现出来的原因。
- 有序和二进制说话人嵌入
本研究提出了一种有序二进制嵌入方法,通过嵌入向量中的维度排序并通过 Bernoulli 抽样将排序向量转换为二进制代码,从而实现说话者识别等任务中层次聚类,减少存储空间和加快检索速度。在 VoxCeleb 和 CN-Celeb 数据集上的实 - 基于目标导向的可解释聚类方法:语言描述
本文提出了一种名为 GoalEx 的目标驱动聚类框架,结合用户目标和自由形式的语言描述,采用语言模型和整数线性规划等方法实现对大型语料库的层次化聚类,并在辩论、客户投诉和模型错误等方面进行了应用。
- 多尺度聚类滤波的持久性同调
通过 Multiscale Clustering Filtration (MCF) 对多尺度数据聚类进行筛选,进而发现数据的层次结构并通过零维和高维的持续性同调来跟踪不同尺度下的聚类冲突。
- 花火》多人游戏中临时组队合作的关键在于行为差异
研究通过层次聚类和皮尔逊相关性分析证实了重新学习(RL)的智能体在掌握单一策略的同时也能够利用超参数部署不同策略,且行为差异越大,协同失败的越明显;同时,该研究也对解决多人游戏中的临时协同问题提供了改善理解。