- 随机投影下的节点相似性:极限和病态案例
通过随机投影方法生成的嵌入向量在计算效率上得到了广泛应用,本文进一步研究了随机投影对点积和余弦相似度的保留效果并提供了新的理论结果,找出了病态案例并用数值实验进行了测试,发现对于低度或高度节点,此方法在点积上得到的嵌入向量相对不可靠,而与随 - 基于随机主成分分析的高光谱图像分类
本文研究了利用主成分分析(PCA)和随机主成分分析(R-PCA)结合支持向量机(SVM)和轻量级梯度提升机(LightGBM)对高光谱图像进行分类的方法,实验结果表明,对于 Indian Pines 和 Pavia University 两 - 基于随机投影的可扩展密度聚类
我们提出了一个高效的基于密度的聚类算法 sDBSCAN,利用随机投影的邻域保持特性,能够快速识别核心点及其邻域,理论上,在合理条件下,sDBSCAN 的聚类结构与 DBSCAN 类似,具有较高的概率。sDBSCAN 在真实世界的百万点数据集 - 用于训练数据归因和研究损失景观的梯度草图
基于神经网络内在维度的研究,我们提出并研究了一种可扩展的草图算法设计空间,并在训练数据归因、Hessian 谱分析和精调预训练语言模型的内在维度计算三个应用中验证了我们方法的有效性。
- 通过编码理论理解神经网络中的多义性
本文通过应用神经科学和信息论中的工具,提出了一种新的实用方法和理论观点,用于解释神经网络的可解释性和多语义性,研究网络代码的冗余水平,并展示了随机投影如何揭示网络代码的可解释性。同时,文中还解释了多语义神经元对学习性能的优势,并对最近 El - 喷气与高能材料相互作用的时空替代物:第二部分 -- 聚类极高维栅格数据
通过引入随机投影的想法,我们对数据进行降维,然后使用 k-means 聚类方法进行聚类,从而为超高维数据生成有意义的簇分配,进而建立计算机模拟的准确替代模型。
- 应用素描来估算 Koopman 算子以可证明地学习大规模动力系统
本文提出一种基于随机投影的非参数机器学习算法,可更高效的学习 Koopman 算子,以分析和预测复杂的动态系统,实验证明提出的估计器在保持相同精确度的情况下比 PCR 或 RRR 更快。
- ACL联合重新参数化的多层适应性用于高效和私密调整
本研究提出了一种新的语言转换微调策略,它在多个转换器层中引入了特定于任务的参数,这些参数是来自单一可训练向量的固定随机投影,使微调具有明显更少的参数,从而实现了 “低资源应用程序及带隐私约束条件训练” 条件下的有效性和性能。
- 随机投影和符号随机投影的差分隐私
本文是关于一系列在机器学习、数据挖掘、和信息检索中广泛应用的差分隐私算法的研究,其中的 extbf {iDP-SignRP} 算法表现出了显著的个体差分隐私能力,而 extbf {DP-SignOPORP} 算法则在标准差分隐私设置下实 - 用低秩张量分解、Radon 变换和字典估计联合概率分布
本文提出了一种从 1-D 边际概率密度中估计联合概率密度的方法,使用字典表示 1-D 密度和随机投影来估计联合分布,比先前基于字典的方法具有更好的样本复杂度。通过使用 1-D 边缘值进行重构,我们在估计合成概率密度方面优于先前的字典方法和高 - 张量随机投影的低内存降维
本文提出了张量随机投影(TRP)的新用法,TRP 映射是由多个较小的随机投影的 Khatri-Rao 乘积形成的,与任何基础随机投影兼容,包括稀疏随机投影,它可以在非常低的查询成本和无浮点操作的情况下进行维数缩减。作者提供了 TRP 的偏差 - ICML使用估计异方差误差的草图数据的最小二乘估计
本篇论文考虑当回归误差不具备恒定方差和异方差稳健标准误差被需要时,使用数据草图的估计值如何表现 ' 好像 ' 误差是均方差齐性的,并证明了这种情况下随机投影的草图估计值可以表达为退化 U - 统计量,给出了统计方法,证明其具有均方差齐性。如 - ACL随机加权编码器在摘要任务中的出色表现
本文考察了未经训练的随机初始化编码器在一般的序列到序列模型中的性能,以及在抽象概括任务中与完全训练过的编码器的性能进行了比较。结果表明,未经训练的随机初始化编码器的架构在性能方面与完全训练过的编码器的等效架构相媲美。同时,编码器的容量不仅改 - 通过投影消除偏差的主要公平性
在算法数据分析中,通过随机投影到 “公平” 子空间来减少数据中的偏差,我们将这种方法应用于最密子图问题,理论上和实验上都可以恢复一个几乎最优、公平、稠密的子图,并通过匹配逼近上界展示该问题的 NP - 难度特性。
- 随机投影与加性噪声下的线性回归隐私和效用权衡
通过向数据集添加噪音或映射到低维子空间,使用条件互信息作为隐私保护度量,研究线性回归问题的差分隐私问题与非协同 SIMO 问题之间的联系。
- 超越 One-hot 编码:低维目标嵌入
本研究提出了一种将目标嵌入到低维空间以提高神经网络收敛速度的方法,其中采用随机投影技术以零计算成本提高了收敛速度,并使用归一化的特征值表示类流形以提高编码的准确性。实验证明该方法能显著提高 CIFAR-100、CUB200-2011、Ima - 标志性完整随机投影
本文提出了一种新的随机投影估计器,其使用期望和正则化方法从数据中估计余弦相似度,并表明在高相似度下,该估计器比标准 Method of 1-bit random projections 更准确。
- 草图算法的统计性质
该论文介绍了一种称为 “sketching” 的数据压缩技术,该技术通过随机投影将大型数据集压缩成较小的替代数据集,然后进行统计分析,该方法特别适用于大规模的线性回归问题。
- 大规模回归的随机投影
本文探讨了随机投影在线性回归问题中的应用,旨在降低计算成本,结合最小二乘回归可产生类似岭回归和主成分回归的恢复效果,并探讨了多次随机投影平均的可能改进。
- 随机流形的随机投影
通过研究典型的高斯随机流形的随机投影所产生的畸变,我们发现了一种明确可计算的近似理论界限来确保这些流形的几何形状的精度,我们的理论界限比之前的研究结果紧凑了几个数量级。