处理重叠非对称数据 — 双重惩罚 P - 样条方法

Nov, 2023

处理重叠非对称数据 — 双重惩罚 P - 样条方法

Handling Overlapping Asymmetric Datasets -- A Twice Penalized P-Spline Approach

Matthew McTeer, Robin Henderson, Quentin M Anstee, Paolo Missier

TL;DR本研究旨在开发一种新方法，能够模拟较小样本与特定响应之间的关系，并考虑较大样本。通过非参数模型和柔性平滑技术，我们提出了一个经过两次惩罚的 P-Spline 逼近方法，通过对较大和较小样本中已存在的协变量的边际值的差异进行惩罚，得到了比线性 B-Spline 和一次惩罚 P-Spline 逼近更好的模型拟合效果。在将其应用于非酒精性脂肪肝风险相关的真实数据集时，我们发现我们的方法可以显著改善模型拟合性能超过 65%。未来的工作包括对方法进行维度约减和考虑参数建模方法的改进，但据我们所知，这是第一个在柔性回归中提出额外边际惩罚的研究，能够考虑到不对称数据集而无需缺失数据插补。

Abstract

overlapping asymmetric datasets are common in data science and pose questions of how they can be incorporated together into a predictive analysis. In →

overlapping asymmetric datasets predictive analysis healthcare datasets smaller cohort twice penalized p-spline approximation

发现论文，激发创造

凹对准合融合方法在子群分析中的应用

该论文提出了一种基于回归模型的受惩罚子组分析方法，该方法利用惩罚来划分不同子组，通过对被观察截距的差异进行配对惩罚来刻画异质性，并且该方法经过了统计检验的验证。

Aug, 2015

比较多重插补技术的方法：以美国国家 COVID 队列合作为例的案例研究

本研究提出了一种新的框架，以数字方式评估在统计分析背景下处理缺失数据的策略，特别关注多重插补技术，并在 National COVID Cohort Collaborative 提供的大型 2 型糖尿病患者队列上进行了实证研究，结果显示多重插补技术可以有效地处理缺失数据。

Jun, 2022

Spike-and-Slab meets LASSO：Spike-and-Slab LASSO 综述

该研究论文介绍了一种名为 spike-and-slab LASSO 的方法，它是高维数据建模中一种基于惩罚似然和贝叶斯框架的概率构造，并讨论了其在多种模型中的扩展和应用。

Oct, 2020

高维数据的深度修剪残差罚最小二乘回归模型

大数据时代中的数据挑战包括：维度常常大于样本大小，异常值或污染点通常隐藏且更难检测。这篇论文系统地检查了文献中的主要惩罚回归方法，并提出了一种基于剪枝残差最小平方和的鲁棒惩罚回归方法，实验证明在估计和预测准确性方面胜过其他竞争对手。

Sep, 2023

变平滑参数的平滑样条

通过使用空间自适应平滑样条估计回归函数，处理具有非同质光滑度的区域，得到对应的等效核和局部罚项，通过最小化渐近积分均方误差获得最优的粗糙罚项，模拟结果和应用证明了该方法的性能。

Jun, 2013

自动节选节点的样条回归

本文提出了一种基于自适应岭惩罚似然过程的方法来选择样条回归中的节点，成为 A-spline，可以获得与惩罚样条回归方法类似的预测性能，同时产生具有高可解释性的稀疏回归模型。

Aug, 2018

高维下近似残差平衡：无偏基础下的平均处理效应推断

本文提出了一种修正方法，使得套索法等稀疏回归方法可以用于高维线性模型的 sqrt {n}- 一致推断，而无需额外假设述评分数的可估计性，仅需要假设存在交集，即积分比例得分从 0 和 1 足够远。

Apr, 2016

高维差分隐私随机优化及重尾数据

本文中，我们首次对 DP-SCO 问题的高维重尾数据进行了研究，提出了在约束为多面体的情况下的误差频率及其限制，进一步在 LASSO 和稀疏学习问题中讨论了误差限制。

Jul, 2021

基于样条函数的 Group-Lasso 谱成像

本文提出了一种基于薄板样条的场估计方法，该方法通过基础扩展模型来实现权重，该模型包含基础函数，这些基础函数是利用从场的噪声样本估算出的通用函数加权的。本文的创新之处在于引入了一种稀疏感知的基于样条的方法，为每个基础函数的薄板样条展开系数提供了一个组 Lasso 估计器。这种新型的基于样条的方法受频谱制图应用的启发，其中一组感知认知无线电协作以估计空间和频率中 RF 功率的分布，模拟测试论证了估计的功率谱密度地图能够提供所需的 RF 状态感知，因为这些地图展示了可以重用空闲频带进行传输的空间位置，即使衰落和阴影效应很明显。

Oct, 2010

理解泛化误差中过拟合的峰值：$l_2$ 和 $l_1$ 惩罚插值的分析风险曲线

本研究通过引入 MiSpaR（Misparametrized Sparse Regression）模型，表明过拟合峰值不能将经典阶段从现代阶段分隔开，数据内插本身不能保证良好的泛化能力，需要研究不同惩罚项下的内插状态。

Jun, 2019