基于线性混合模型的大规模数据集高效计算及其在遗传研究中的应用

Jul, 2012

基于线性混合模型的大规模数据集高效计算及其在遗传研究中的应用

Efficient computation with a linear mixed model on large-scale data sets with applications to genetic studies

Matti Pirinen, Peter Donnelly, Chris C. A. Spencer

TL;DR考虑到基因组关联研究，在许多预测变量已经在同一个个体中收集并且每个预测变量都是单独分析的情况下，我们引入一个标准的线性模型，并在其中引入一个额外的随机效应。本文的三个创新点是（1）线性和 log-odds 尺度之间的转换是准确的，特别适用于小效应大小的重要的遗传情况；(2) 一种极大似然算法，比以前发表的方法快一个数量级以上；和 (3) 计算边缘似然的有效方法，允许贝叶斯模型比较。该方法已成功应用于包括超过 20,000 个人和 500,000 个遗传变异的多发性硬化的大规模关联研究。

Abstract

Motivated by genome-wide association studies, we consider a standard linear model with one additional random effect in situations where many predictors have been collected on the same subjects and each predictor

genome-wide association studies linear model random effect likelihood-maximization algorithm bayesian model comparison

发现论文，激发创造

结构化人群的遗传变异概率模型应用于全球人类研究

本文提出两种概率模型：一种是利用主成分分析（PCA）实现 Pritchard-Stephens-Donnelly 混合成员模型的估计，另一种是基于人口结构模型的概率模型的新 “逻辑因子分析”（LFA）框架的提出，这些模型较少地提出了建模假设，而这些模型能识别与结构存在高度分化的 SNPs。

Dec, 2013

广义线性模型中未测混淆因素的同时推断

基因组研究中的假设检验问题，针对多元广义线性模型中的混淆效应，提出了一种统一的估计和推断框架，能够控制假阳性率，并且比替代方法更强大。

Sep, 2023

贝叶斯稀疏线性混合模型多基因建模

提出了一种 “贝叶斯稀疏线性混合模型”(BSLMM)，将线性混合模型 (LMMs) 和稀疏回归模型两种方法相结合，以实现多基因建模。通过适当的超参数先验规范和新颖的马尔可夫蒙特卡罗算法进行后验推理，BSLMM 的方法在两个多基因建模应用中的估计表现的优势比前文提出的大规模回归方法更好。

Sep, 2012

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018

线性混合效应模型中的变量选择

本文提出了一类非凸惩罚剖面似然方法，用于选择和估计线性混合效应模型中的重要固定效应和随机效应，并针对随机效应的未知协方差矩阵使用代理矩阵，进一步提出了一种组变量选择策略，以同时选择和估计重要的随机效应。

Nov, 2012

使用 $l_1$ 惩罚的高维线性混合效应模型估计

本研究提出了一种针对高维线性混合效应模型的 $\ell_1$- 惩罚估计过程，该模型对于高维观测中存在分组结构的数据非常有用。我们证明了一致性和优化性结果，并开发了一种具有可证明数值收敛性的算法。此外，我们还在模拟和实际高维数据集上展示了该方法的性能。

Feb, 2010

线性混合模型中的模型选择

本文回顾了如何利用信息标准、收缩方法、Fence 法和贝叶斯技术等四种主要方法，解决选择适当的线性混合效应模型的问题。通过考察一系列文献的方法、性质和相互关系，帮助读者更好地了解可用的方法。

Jun, 2013

高维广义线性模型中的最优误差和相变

本论文研究高维机器学习中常遇到的广义线性模型，利用互信息推导贝叶斯最优估计和广义错误率，并且严谨论证了存在多个可学习区域，这对于算法开发和模型性能评估具有挑战性。

Aug, 2017

多模型线性回归用于大数据的高效数据分析方法

本研究提出了一种新的数据分析方法，使用一种名为多模型线性回归（MMLR）的新定义的回归模型，将输入数据集分成子集并构建局部线性回归模型。该方法比其他基于回归的方法更高效、更灵活。研究还提出了一种基于（ε，δ）- 估计器的近似算法来构建 MMLR 模型，并对 MMLR 算法的正确性和效率进行了数学证明，其时间复杂度与输入数据集的大小成线性关系。此外，研究还在合成数据集和真实世界数据集上进行了实证实验，结果显示算法在许多情况下具有与现有回归方法可比的性能，同时提供了很高的预测准确度而几乎不需要花费过多时间。

Aug, 2023

非均匀大规模数据中的最大极小效应

在大规模数据中，通过最大化效应这一概念提出一个可靠的线性模型来拟合变化系数模型或混合模型，以提高预测的准确性和计算效率。

Jun, 2014