- 关于特征叠加的缩放规律影响
通过尺度定律的结果,本理论笔记论证了以下两个陈述不能同时成立:1. 稀疏特征在层间线性表示的叠加假设是特征表示的完整理论。2. 特征是普遍的,意味着在相同数据上训练且达到相等性能的两个模型将学习相同的特征。
- Bullion:面向机器学习的列存储
Bullion 是一种为机器学习工作负载量身定制的列存储系统,解决了数据合规性的复杂性、对稀疏特征进行优化编码、高效管理宽表投影以及引入特征量化存储等问题,实验结果和理论分析证明 Bullion 在处理机器学习工作负载的独特需求方面表现出卓 - SUIT: 学习 3D 时间检测的重要性指导信息
本文提出了一种用于三维时间检测的有意义指导信息 (SUIT) 学习方法,它通过使用预测的物体质心来提取信息丰富但稀疏的特征,然后在稀疏特征之间学习物体中心转换,其在大规模 nuScenes 和 Waymo 数据集上具有良好的表现。
- SIGIRHyperFormer: 通过超图 Transformer 学习表现力强的稀疏特征表示
本文从图学习的角度,利用 Hypergraph Transformer 模型,通过在构造的超图上传递信息,得出在高维稀疏数据的特征表征学习中的相关性,从而更好地解决相关性的问题。
- 超叠加的玩具模型
本文提供了一个玩具模型,完全理解了多义性的出现,我们通过存储额外的稀疏特征在 “叠加” 的方式下实现了多义性。我们展示了一个相位变化的存在,一个令人惊讶的与均匀多面体几何的联系,以及与对抗性示例的联系的证据。我们还讨论了对机械解释的潜在影响 - ICML自监督对比学习的特征学习过程理解
本文通过分析其特征学习过程,形式化研究了对比学习如何学习神经网络的特征表征。通过证明使用 ReLU 网络的对比学习可以如果采用适当的增强来稀疏表示,我们提出了一种名为特征解耦的基本原理来解释增强的效果,并在实践中验证了特征解耦原理与对比学习 - 高维稀疏线性赌博机
研究高维稀疏特征的随机线性臂模型中,在数据匮乏的情况下,特征向量遵守固定的探测分布,通过探索然后提交算法,得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。
- 为推荐系统学习大词汇类别特征的多粒度量化嵌入
本论文旨在为大型 vocab 稀疏特征的推荐系统学习高度紧凑的嵌入。我们提出了不同可微的产品量化(DPQ)方法,并提出了一种多粒度量化嵌入(MGQE)技术,以更好地处理推荐系统中常见的幂律数据分布。实验结果表明,我们只需要使用原始模型大小的 - 基于特征注意力的图卷积网络实现噪声鲁棒性学习
本文提出了一个处理节点内容嘈杂且稀疏的特征关注图卷积学习框架,采用长短期记忆网络学习每个节点的密集表示,引入特征 - 注意机制,允许相邻节点学习和变化特征重要性,并使用基于谱的图卷积聚合过程,该方法在不同噪声水平下表现出优于现有方法的性能。
- 基于随机剪枝的稀疏对抗攻击鲁棒性证明
使用基于随机平滑的 L1 和 L2 变换来保证分类器对于固定 L0 干扰大小的分类鲁棒性,并提出了一种高效且可验证的防御方法,通过使用随机消融的输入特征而非加性噪声来对抗稀疏的对抗干扰攻击,实验结果验证了其在 MNIST、ImageNet - 适应性随机双坐标上升用于条件随机场
本文研究了使用 Shalev-Shwartz 和 Zhang(2016)的 stochastic dual coordinate ascent(SDCA)算法训练条件随机场(CRFs)的方法,提出了一种新的自适应非均匀采样策略,设计实验在四 - 组合核的随机特征
本研究介绍并分析了一种简单的随机特征方案 (RFS)。我们使用的复合核受卷积神经网络和内核结构的启发,生成的方案产生了稀疏且高效计算的特征。每个随机特征都可以表示为合成树中少量(随机的)路径的代数表达式,这样,复合型随机特征可以被紧密地存储 - AAAI依存词对利用于统计机器翻译中的重新排序:交换还是不交换?
本文介绍一种利用基于依存词对的稀疏特征的新型重排序方法,该方法在汉英翻译实验中取得了 1.21 BLEU 点的显著提高。
- 带变分信息瓶颈的相关稀疏编码
提出了信息瓶颈方法的一个新的变分计算模型,通过该模型以及核化技术实现对非线性问题的处理,从而获得相关而稀疏的特征。
- fastFM: 因子分解机的库
本文介绍因子分解机及其在机器学习、推荐系统、处理稀疏高维特征等领域的应用。作者提供了一个易用的因子分解机实现,支持回归、分类和排序等任务,为这一模型在广泛的应用领域提供了便利和潜力。
- 非负矩阵分解的原因和方法
本文介绍了非负矩阵分解的稀疏特征提取功能,并探讨了如何解决通常情况下 NP 困难的 NMF 问题,介绍了一个称为近可分离 NMF 的问题子类,可以高效地解决一些在有噪声的情况下的 NMF 问题。最后简要描述了 NMF 在数学和计算机科学领域