SNEkhorn: 对称熵相似性的降维

May, 2023

SNEkhorn: Dimension Reduction with Symmetric Entropic Affinities

Hugues Van Assel, Titouan Vayer, Rémi Flamary, Nicolas Courty

TL;DR该研究报道了利用最优输运问题分析熵磁亲和矩阵（EA）并发现 EA 的自然对称化方法。新的亲和矩阵利用对称双重随机规范化实现更好的聚类表现。在此基础上，研究提出了一种新的降维算法 SNEkhorn，并在人工合成数据集和实际数据集上展示了其明显的卓越性。

Abstract

Many approaches in machine learning rely on a weighted graph to encode the similarities between samples in a dataset. entropic affinities (EAs), which are notably used in the popular →

machine learning entropic affinities dimensionality reduction optimal transport problem clustering performance

发现论文，激发创造

使用置换辅助的熵维度降低线性可扩展学习平滑低维模式

该研究介绍了一种基于欧式平滑度作为模式质量标准的无监督熵正则化迭代优化问题，能够高效地从高维数据中提取出稀疏的、经过排列的低维平滑模式，有效地实现了降维和特征提取，且在实际应用中能够识别同时最小化破产风险的平滑转换模式。

Jun, 2023

熵感知的相似度用于平衡聚类：以黑素瘤检测为例

本文提出了一种新的基于 entropy-aware similarity 的方法用于 balanced clustering, 通过将熵纳入一个新的相似度公式中，将不平衡的数据进行互补聚类来最大化平衡度，实现成功聚类和患者黑色素瘤的识别。

May, 2023

Sinkhorn 自编码器

本文介绍了一种基于最优输运的生成自编码模型的学习方法，将生成器与真实数据分布的 p-Wasserstein 距离最小化等价于最小化编码器聚合后验概率与潜在空间先验的 p-Wasserstein 距离，加上重构误差。文章还介绍了一种称为 Sinkhorn 自编码器（SAE）的算法，通过 Sinkhorn 算法进行反向传播来近似和最小化潜在空间中的 p-Wasserstein 距离。

Oct, 2018

实体对齐中是否需要负样本？一种高性能、可扩展性和健壮性的方法

该研究提出了一种新的实体对齐方法，包含三个新组件：简化的图编码器，对称的无负样本对齐损失和增量式半监督学习。实验证明该方法不仅在性能上超越了现有技术，而且具有出色的可扩展性和鲁棒性。

Aug, 2021

通过投影熵聚类单词

应用熵聚类算法对文学文本进行聚类分析，实验结果表明该算法具有在捕捉文本中单词之间显著关系方面的实用性。

Oct, 2014

高效算法的 t - 分布随机邻域嵌入

本论文介绍了一种名为 FIt-SNE 的快速傅里叶变换加速插值 t-SNE 方法和 out-of-core PCA 方法，这些方法可以加速 t-SNE 的计算，并允许在资源有限的计算机上计算大型数据集的 t-SNE。

Dec, 2017

低秩约束下匹配相似性矩阵估计

本文针对高维运输问题中的运输剩余（又称匹配亲和力）估计问题提出了一种基于矩阵核范数正则化的新方法，旨在有效强制亲和力矩阵的秩约束，从而估计出低秩矩阵并揭示与匹配相关的主要因素。

Dec, 2016

ClusterEA：基于随机训练和归一化小批量相似度的可扩展实体对齐

ClusterEA 是一个通用的框架，利用小批量的高等价率实体，采用规范化方法扩大了实体对齐模型，以解决现有 embedding-based 方法中出现的几何问题，并融入在稀疏矩阵融合的基础上为实体对齐提出了新的 ClusterSampler 策略，该方案能够比现有最先进的可扩展性 EA 框架提高 8 倍的 Hits@1。

May, 2022

核 t 分布随机邻域嵌入

本文介绍了 t-SNE 算法的核化版本，能够将高维数据映射到低维空间并在非欧几里德度量下保留数据点之间的成对距离，可以通过仅在高维空间或在两个空间中使用核技巧来实现，提供了数据点之间关系的新视角，改进了包括使用核方法的分类问题的性能和准确性，并利用多个数据集阐明了 t-SNE 和其核化版本之间的区别，展示了不同类别点的更整洁的聚类。

Jul, 2023

用于哈密顿系统模型简化的辛自编码器

为了解决大维物理系统不同参数选择下的计算成本过高问题，该研究提出了模型简化和神经网络结构的新方法，其中关键是保存系统的辛结构和利用网络设计中的微分几何结构进行训练，该方法在准确性方面表现显著优于现有设计。

Dec, 2023