高维潜空间中可靠的散布度量
高维数据集在各个学科的统计建模中带来了很大的挑战,需要高效的降维方法。深度学习方法通过降维的潜在特征空间从复杂数据中提取关键特征,有着广泛的应用,从生物信息学到地球科学等领域。本研究通过引入一个新的工作流程来评估这些潜在空间的稳定性,确保后续分析的一致性和可靠性。该工作流程囊括了三种稳定性类型:样本稳定性、结构稳定性和推断稳定性,并引入了一套综合评估指标。研究结果揭示了潜在特征空间固有的不稳定性,并证明了该工作流程在量化和解释这些不稳定性方面的功效。这项工作推进了对潜在特征空间的理解,促进了深度学习在各种分析工作流中的模型可解释性和质量控制,为更加明智的决策提供了基础。
Feb, 2024
本文探讨基于数据维度和结构本身而非基于统计的方法,提出一种计算连续空间熵的测度,称作 ID-Entropy,该熵测度适合在神经网络中广泛使用,可以保留数据固有的维度信息,并在分类器和自动编码器中直接控制泛化差距的大小。
Apr, 2023
用 Gromov-Wasserstein 距离的下界,通过对所有数据矩计算,基于内在和多尺度的方法对比数据流形。实验证明,该方法能够有效地识别不同维度未对齐数据的结构,并展示了在评估生成模型质量方面的功效。
May, 2019
本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响,并通过两组实验表明数据的分布对评估具有统计学上的重要性,并且可预测模型的泛化能力。
Mar, 2024
通过在语义相关的数据集和任务上训练的模型,我们研究了聚合这些潜在空间以创建包含组合信息的统一空间。我们引入了相对潜在空间聚合(Relative Latent Space Aggregation)作为一个两步方法,首先使用相对表示使空间可比较,然后通过简单平均聚合它们。我们把一个分类问题细分为三种不同的设置下的学习任务,并训练每个任务的模型并聚合结果的潜在空间。我们将聚合空间与在所有任务上训练的端到端模型产生的空间进行比较,并表明两个空间是相似的。我们观察到聚合空间更适合于分类,并通过实验证明这是由于任务特定嵌入器遗留在表示中的独特印记。最后,在不存在共享区域的情况下测试我们的框架,并显示它仍然可以用于合并空间,尽管相对于简单合并而言其好处有所降低。
Nov, 2023
通过标准化技术等方法探讨相似度测量在 BERT 和 GPT-2 等上下文鉴别模型中的代表性和准确性。我们发现一些不代表整体性质的维度会干扰这些测量,并且这些测量值并不一定代表模型的真实行为。因此,我们认为分析这些模型中基于相似性的操作需要解决这些问题。
Sep, 2021
使用 Grassberger-Procaccia 算法和 Fisher-Rao 距离,测量了自然语言的相关维数,并证明了语言具有多分形性质,具有全局自相似性和普遍维数约为 6.5,大于简单离散随机序列的维数但小于 Barabasi-Albert 进程的维数,同时长时记忆是产生自相似性的关键。这种方法适用于任何真实世界离散序列的概率模型,并展示了音乐数据的应用。
May, 2024
度量空间的规模最近被确定为一种新型不变量,它可以在多个尺度上衡量空间的 ' 有效大小 '。通过捕捉数据的几何和拓扑特性,度量空间可以解决无监督表示学习任务中的挑战。我们形式化了有限度量空间的度量函数之间的新概念差异度,并用它们导出了一种用于降维任务的质量度量。我们的度量可以在数据扰动下保持稳定,计算效率高,并且可以对嵌入进行严格的多尺度比较。我们通过一个实验套件展示了我们度量的实用性,其中包括数据可视化的比较。
Nov, 2023
本文研究了分布相似度量的应用,以提高对未见共现情况的概率估计。我们的研究贡献有三个:通过广泛的比较实现了相似度量的分类,通过信息融合确定相似函数类型,介绍一种优秀的函数进行潜在代理分布的量化评估。
Jan, 2000