通过分析三种 k-d 树的变体,我们确定了一个简单的潜在函数,该函数能直接反映数据集和查询点难度,并在正增长测度和主题模型中限制了该潜在函数。
Feb, 2013
介绍了一种新的高维数据的空间数据结构 - 近似主方向树 (APD) 树,该算法确保了与计算复杂的 PCA 树相似的向量量化精度,且时间复杂度与低精度 RP 树相当。
Jun, 2012
提出了一种简单且计算效率高的树形结构向量量化方案,与以往方法不同的是,其量化误差仅取决于数据分布的内在维度,而不是数据所处空间的表观维度。
May, 2008
本文介绍了使用产品分区模型扩展到空间设置的方法,以明确模型空间位置的划分,提供了更多控制空间结构的方法,能够更好地平衡全局和局部空间依赖性,并通过模拟研究和教育应用示例表明了该方法的实用性。
Apr, 2015
本文介绍了一种基于 PCA 的新方法,用于估计具有非线性结构的数据的内在维数,该方法利用整个数据集估计其内在维数,并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构,并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明,该方法可以过滤数据中的噪声,并在邻域区域大小增加时收敛到稳定的估计值。
Feb, 2010
该研究论文表明,非参数回归器在数据的内在维度的影响下可适应高维数据,k-NN 回归也适应内在维度。这篇论文还证明了最小极限速率不依赖于度量空间或分布的特定选择,而是适用于任何度量空间和加倍度量。
Oct, 2011
提出了基于空间划分技术的差分隐私合成数据生成算法,可以保护数据隐私并生成与原始数据类似的数据,具有可解释性、透明性和可扩展性,并且在实验中表现出相比之前方法更优的效果。
Jun, 2023
本文总结了基于随机投影的不同方法的使用情况,旨在帮助实践者为其特定应用选择合适的技术,并列举了各种方法的优缺点,并为研究人员提供进一步的参考,以开发新的基于随机投影的方法。
Jun, 2017
提出了一种使用装饰树的自适应树划分算法,可以生成更高阶方法的估计集以及在平滑度和边际条件方面具有更强的收敛性。
Nov, 2014
本文研究了分布式空间数据分析的机器学习方法,并提出了一种新的深度强化学习算法来有效地分配大量的空间数据给计算机,通过实验证明,此方法可加速距离连接查询,减少任务运行时间长达 59.4%。