当高斯过程遇到大数据：可扩展高斯过程综述

Jul, 2018

当高斯过程遇到大数据：可扩展高斯过程综述

When Gaussian Process Meets Big Data: A Review of Scalable GPs

Haitao Liu, Yew-Soon Ong, Xiaobo Shen, Jianfei Cai

TL;DR本文回顾和分析了当前流行的可扩展高斯过程回归模型的局部和全局逼近方法，主要包括稀疏逼近、混合专家模型和产品专家模型，并探讨了这些模型在数据规模大的情况下的应用前景。

Abstract

The vast quantity of information brought by big data as well as the evolving computer hardware encourages success stories in the machine learning community. In the meanwhile, it poses challenges for the Gaussian

发现论文，激发创造

一般似然函数的稀疏后验高斯过程

提出一种基于稀疏高斯过程的框架，使用期望传播直接逼近一般高斯过程的似然函数，既包括了 SPGP 和 VSGP 用于回归的特殊情况，又兼顾了在线处理数据的能力，可用于解决分类问题。在基准数据集上的实验表明，该框架在小样本规模下，不仅能够最大程度地逼近非稀疏 GP 解，而且可降低分类错误率。

Mar, 2012

低秩协方差矩阵逼近的并行高斯过程回归

本文介绍了两种基于低秩协方差矩阵逼近的并行高斯过程回归方法，这两种方法可以将计算负载分布在并行机器之间以达到时间效率和可伸缩性，并经过理论分析证明了这些方法的预测性能等价于一些集中式的近似高斯过程回归方法，并且在两个真实数据集上的实证评估表明我们的并行高斯过程回归方法比其集中式对应物和全高斯过程方法具有更高的时间效率和可伸缩性，同时实现与全高斯过程方法相当的预测性能。

Aug, 2014

大数据的并行高斯过程回归: 低秩表示遇上马尔可夫近似

本文提出了一种低秩/马尔科夫逼近的高斯过程模型，该模型在保证预测性能的同时提高了可扩展性并且适合于在多个机器/内核上并行运行。

Nov, 2014

高斯过程随机场

介绍了一种新的大规模高斯过程的近似方法——高斯过程随机场，在合理精度和计算代价的前提下实现了潜在变量建模和超参数调节，并在合成空间数据和地震事件定位的真实世界应用中展示了其有效性。

Oct, 2015

百万数据点上的精确高斯过程

本文提出了一种可扩展的方法，利用多GPU并行化和线性共轭梯度等方法，仅通过矩阵乘法就可以访问核矩阵，将核矩阵乘法进行分区和分配，演示了可以在不到2小时内对超过一百万个点进行精确的高斯过程训练，并在规模上进行了比较，表现出显著的性能提升。

Mar, 2019

跨域和多输出高斯过程的框架

该论文提出了一个适用于大规模问题的高斯过程的数学和软件框架，该框架结合了跨域近似和多输出，能够简化使用GPs创建深层模型的过程。

Mar, 2020

Nyström 方法与稀疏变分高斯过程之间的联系和等价性

研究稀疏逼近方法在进行核方法和高斯过程（GPs）的大规模数据方面的连接，着重于Nyström方法和Sparse Variational Gaussian Processes （SVGP）。在回归问题的上下文中，提供一种RKHS解释SVGP逼近，并且展示了其Evidence Lower Bound 包含了Nyström逼近的目标函数，揭示了两种方法之间的代数等价性的来源。此外，研究了SVGP的最近建立的收敛结果以及它们与Nyström方法的逼近质量之间的关系。

Jun, 2021

用稀疏矩阵表示加性高斯过程

本文针对加性Matern高斯过程，提出基于后向逼近算法的计算方法，计算后验均值、方差、似然函数和梯度的复杂性从O(n^3)降低到O(nlogn)，并应用于贝叶斯优化中，提出了后验更新、超参数学习、习得函数和其梯度的有效算法。

Apr, 2023

近似高斯过程的基准线和基准测试建议

高斯过程是机器学习工具箱中成熟且广泛使用的组成部分之一。论文提出了一种基于方法所期望的指标来比较高斯过程的近似方法的建议，并开发了一种训练过程，使用户不需要进行选择。研究结果表明，根据这些建议进行基准测试可以更清楚地了解领域的当前状况，并揭示了未来研究需要解决的问题。

Feb, 2024

计算感知高斯过程：模型选择与线性时间推理

本研究解决了高斯过程模型选择在训练数据集规模扩大时所带来的时间和内存问题。提出了一种新的超参数优化训练损失，能够实现线性时间缩放，加速模型选择过程，并在中到大规模数据集上超越现有的最先进方法。研究结果表明，计算感知高斯过程可以在不显著妨碍不确定性量化能力的情况下，成功训练大规模数据集，为最佳决策提供了基础。

Nov, 2024