- 数据复杂性的几何视角:基于扩散模型的高效局部内部维度估计
基于扩散模型的 Fokker-Planck 方程提供了一种解决现有方法缺陷的局部内在维度估计器 FLIPD,它兼容于各种流行的深度生成模型,并在局部内在维度估计基准测试中优于现有基线模型。
- 利用深层模型的分层内在维度进行实用对抗训练
通过改进的 Adversarial Training 算法 SMAAT,本研究提供了 vision 和 language 模型在 generalization 和 robustness 趋势差异的首个解释,同时展示了 SMAAT 在多个任务 - 超越噪音:最佳邻域识别下的内在维数估计
在这项工作中,我们介绍了一种自动选择合适尺度的协议,该尺度能够使内在维度具有意义且有用,并且通过对人工和真实数据集的基准测试来证明了该程序的实用性和鲁棒性。
- 二进制数据的内在维度是多少?- 如何快速计算
使用基于概念的内部维度对数据集进行分析和理解的研究,提出了一种基于计算概念的近似方法,通过计算某个支持值来评估内部维度,并使用 Tatti 等人的多个数据集进行验证。
- 关于生成对抗模型在低内在数据维度下的统计特性
尽管生成对抗网络(GANs)在实证方面取得了显著的成功,但其统计准确性的理论保证仍然相对悲观。本论文试图在理论和 GANs 以及双向 GANs(BiGANs)的实践之间架起桥梁,通过推导出关于估计密度的统计保证,以数据的固有维度和潜在空间为 - 大型语言模型几何特征解决有害内容检测与生成
大型语言模型的几何视角下,从内在维度和可解释的样条特征的角度探索其内部表示,并证明这些理论结果可以回答实际问题,如毒性检测。
- 使用正式概念分析评估自然语言的内在维度
计算实验确定孟加拉语和俄语语言变体的内在维度,并发现内在维度显著低于自然语言处理中常用的神经网络模型的维度。
- ACL学习的形态:基于 Transformer 模型的各向异性和固有维度
我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度,并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式,峰值位于中间层,与编码器中更均匀分布的各向异性特征不同。此外,我们发现嵌入的内部维度在训练的 - 流行近似最近邻搜索实现的最坏情况性能:保证和限制
图形化相似最近邻搜索算法的最坏情况性能研究,以 HNSW、NSG 和 DiskANN 为例,发现其实际查询时间与实例大小成线性关系,并证明其具有常数近似比和多对数查询时间的边界维数据集。
- 相对内在维度与学习的内在性
高维数据具有令人惊讶的特性:仅使用简单的线性分类器就可以高概率地将数据点配对分开,甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念,精确地捕捉了数据的可分离性质。对于这个内在维度,以上的经验法则成为一条规律:高内在维度保证了数 - 熵优化传输的最小内在维度缩放
本文针对数据的低固有维度这一流形假设,提出了一种基于内在维度的统计精细界限的方法,证明了最小固有维度缩放现象是一种普遍现象,为熵正则化的统计效应提供了首个严格解释。
- 内在维度约束下的自编码器学习低维图像表达
本文中提出了一种新颖的自编码器深度表示学习方法,它将全局和局部内在维度约束的正则化引入数据表示的重构中,从而使学习到的低维特征更具判别性,从而提高下游算法的性能。
- AAAI本地内在维度熵
本文探讨基于数据维度和结构本身而非基于统计的方法,提出一种计算连续空间熵的测度,称作 ID-Entropy,该熵测度适合在神经网络中广泛使用,可以保留数据固有的维度信息,并在分类器和自动编码器中直接控制泛化差距的大小。
- 探索稳定扩散的表征流形
本研究探讨在 Stable Diffusion 模型内置表现的内在维度,发现提示的选择对模型各层的表现内在维度有重要影响,提示复杂度会影响模型特定层的表现维度,而内在层则未表现出此种相关性。研究结果可为将来研究文本 - 图像模型内使用不同提 - 大型 Transformer 模型的隐藏表示的几何学
研究表明,transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化,从而呈现出数据流形在隐藏层中的几何和统计特性,而数据流形的语义结构在第一阶段触发。基于这些观察结果,建议使用内在维度作为无监督代理,以确定下游学 - 通过激活函数的内在维度将正则化和泛化联系起来
本文研究了模型的内在维度对其泛化能力的影响,通过对验证集和训练集的表现进行分析,提出了通用的规则以改善在一个模型内提取特征数据时可能遇到的问题。
- 目标检测网络中数据集的维度
该研究旨在探讨卷积神经网络(CNNs)在自动驾驶中目标检测方面的应用,以及数据的内在维度与不同层的精度关系。研究发现在特征提取过程中,正常数据与增强数据的表示存在差异。
- 一种用于维度估计的加性自编码器
本文针对降维问题提出并分析了一种由序列化偏差估计、线性趋势估计和非线性残差估计组成的增量自编码器。实验结果表明,仅通过浅层网络封装非线性行为的自编码器能够识别具有低自编码误差的数据集的内在维度。该研究进一步比较了深层和浅层网络结构及其训练方 - 大规模几何学习的内在维度
本文提出了确定内在维度函数的计算方法,通过将数学测量集中现象公理地与内在维度联系起来,我们证明了其计算的可行性,并在模型中体现了复杂数据的几何特性,特别地,我们提出了一种将邻域信息纳入内在维度的主要方式,使得对常见图学习过程的新洞察成为可能 - TOAST: 基于拓扑的奇点跟踪算法
通过开发一种拓扑框架,定量测量局部内在维度和多尺度下点的欧几里得度量,检测复杂空间的奇异性,同时捕获图像数据中的奇异结构和局部几何复杂性。