- Oja 阈值处理是否实现稀疏 PCA?
稀疏主成分分析 (Sparse Principal Component Analysis, PCA) 的问题,当比率 $d/n
ightarrow c > 0$ 时进行研究。针对在线优化问题,我们提出一种简单的算法,通过阈值和重新归一化 - 稀疏字典学习的素描算法:PTAS 和转轴流式处理
通过新技术扩展基于草图的方法,开展了稀疏字典学习和欧氏 k-means 聚类问题的研究,在快速算法方面获得了对 $k$-means 聚类问题的新方法,并推广到稀疏字典学习问题。在流算法方面,得到了字典学习和 $k$-means 聚类的新上界 - 约束 k 次模最大化的在线和流式算法
本文提出了单遍流式和在线算法的受约束 k - 次模最大化,其中包含基数和背包约束限制,该算法可以提供不错的近似解和高效的解决方案,并在广告分配等应用实例上得到了验证。
- ICLR在图流中预测三角形和四元环的数量
为了解决图分析中广泛研究的三角形和四个环这两个基本问题,我们提出了数据驱动的单通量流算法。我们还探索了在多个图边流模型中使用 “重边” 预言家的能力,并展示了该方法相对于现有流算法的优势。
- KDD在边缘流上计算图描述符
通过使用流算法近似计算三种不同的图表述,避免将整个图存储在内存中,并控制样本大小,使我们能够将算法运行时间保持在所需的范围内,并通过分析逼近误差和分类准确度证明所提出的描述符的功效。
- 倒放体验回放的流式线性系统辨识
提出了一种基于流式数据的算法 SGD-RER,使用经验回放技术,利用数据依赖性结构分解和预测误差,以及线性系统辨识问题的第一阶段启发式算法,应用于更多的 LTI 识别设置和非线性动态系统中,并展示了利用数据依赖性结构设计统计和计算高效算法的 - 机器学习中的差异、核心集和草图
该论文定义了函数族的类差异概念,并提出了一些技术来限制机器学习问题的班别差异,从而证明了高斯核密度估计的 coreset 复杂度存在 ε- 近似 O (sqrt {d}/epsilon) 的解法。除此之外,该论文还提供了两个与之相关的独立结 - 全息子模流处理:紧密逼近、最小内存和低自适应复杂度
本文讨论了在 streaming setting 下最大化单调次模函数,并给出了一种新的算法 Sieve-Streaming++ 以及其扩展到多源 streaming setting 的方案,最终将该算法应用于 twitter 和 yout - 海量数据流中子模函数最大化问题的 $1/2$ 之外近似算法
该论文研究设计了一种流式亚模量最大化算法 SALSA,用于提取数据多样性、非参数学习、核机器、聚类等方面的大规模数据集的代表性摘要,取得了比现有算法更好的近似效果。
- 基于良好条件基础的 Minkowski $p$- 范数流式和分布式摘要
本文研究了适用于不同的 lP 范数的近似线性代数问题,提出了一种同时适用于每个 p ≥ 1 的确定性算法,并将其应用于多种问题,如 lP 回归,逐元素 l1 低秩逼近和近似矩阵乘法。
- KDD在流式张量分解中识别和缓解概念漂移
本研究介绍了一种名为 SeekAndDestroy 的算法,用于检测流式张量分解中的概念漂移,并能够使结果对漂移不敏感。该算法在合成数据集和真实数据集上进行了广泛的评估,证明了其检测概念漂移和缓解其影响的有效性,同时发现了一些新的有用组件。
- 流式非单调子模最大化:实时个性化视频摘要
本文提出了第一个高效的单遍流式计算算法 Streaming Local Search,用于在独立系统和多重背包约束下,同时最大化非单调子模函数,解决实时提取和总结大规模视频流的问题。
- KDDTRIÈST:使用固定内存大小计算全动态流中的局部和全局三角形
TRI'EST 是一组流式算法,可在敌对的边插入和删除流中表示的全动态图中计算全局和局部(即与每个顶点相关)三角形数量的无偏低方差高质量近似,并利用储存器抽样及其变体在全部时间内利用特定内存空间的方法。
- NIPS面向贝叶斯非参数模型的流式分布式变分推断
提出了一种用于创建基于贝叶斯非参数模型的流式分布式推理算法的方法,其中处理节点接收数据小批量序列,为每个小批量计算变分后验,并对中央模型进行异步流式更新。
- 子模函数最大化的流式算法
该研究主要针对单次流式处理的情况下,最大化一个非负子模集函数 f 编制一些确定性和随机算法,以实现对 p 匹配约束条件的大约 1 /p 的逼近,假设具有时间和资源约束。
- Frequent Directions:简单和确定性的矩阵草图
Frequent Directions 是一种新的确定性矩阵草图算法,适用于行更新模型。它在空间误差权衡中优于现有的流式算法的示例实现。
- 流式稀疏回归的统计学
本文介绍一种基于稀疏近似的随机梯度下降算法,该算法能够在类似 Lasso 的条件下表现良好,并且无需更多的计算资源。在实验中,我们发现我们的方法在真实数据和模拟数据上均表现出色。
- 流模型中识别好括号表达式
研究了检查匹配括号问题 Dyck (s) ,提出了一个时间复杂度为 $\polylog (n)$、空间复杂度为 $\Order (\sqrt {n}\log n)$ 的单项式随机流算法,证明当允许双边误差时,此算法是最优的,甚至可以通过一些