条件预测函数：用于复杂模型误报控制的新技术

Oct, 2023

条件预测函数：用于复杂模型误报控制的新技术

The Conditional Prediction Function: A Novel Technique to Control False Discovery Rate for Complex Models

Yushu Shi, Michael Martens

TL;DR现代科学研究中，识别与结果相关的变量是一个常见目标。本研究介绍了一种基于条件预测函数 (CPF) 的变量选择方法，该方法能够捕捉预测变量与结果之间的非线性关系，并同时考虑特征之间的相关性，具有优于常见方法的选择功效。

Abstract

In modern scientific research, the objective is often to identify which variables are associated with an outcome among a large class of potential predictors. This goal can be achieved by selecting variables in a manner that controls the the false discovery rate (FDR), the proportion of irrelevant predictors among the selections. →

variable selection false discovery rate control knockoff filtering conditional prediction function machine learning predictive models

发现论文，激发创造

通过 knockoffs 控制误发现率

本文介绍了一种新的变量选择方法 —— 模拟变量过滤器，该方法可以在有足够观测值的情况下控制统计线性模型中的假发现率，并且可以与 Lasso 统计量配合使用，能够大大提高在控制空变量比例高的情况下的功效。

Apr, 2014

高维选择性推断的仿冒过滤器

本文提出了一种基于 knockoff filter 的测试框架，用于在特征数量可能远远超过观测单元数量的高维线性模型中控制伪发现率，并在基因组关联研究中展示了其性能。

Feb, 2016

用于 FDR 控制变量选择的自编码模拟生成器

本文提出了一种模型无关的 knockoff 生成器，该生成器通过潜在变量表示近似特征之间的相关性结构，进而达到了对 FDR 的控制和更好的功效，可以在 HIV-1 患者中找到与药物抗性相关的突变。

Sep, 2018

针对大规模应用的模拟样本：具有假发现保证的新特征重要性统计量

该研究探讨了如何使用基于贝叶斯网络的有效算法来生成 knockoffs，并开发了新的测试统计量以提高功率。

Jul, 2018

转化稀疏系数下的虚假发现率控制：分裂 Knockoffs

该论文提出了一种适应数据的方法，即 Split Knockoff 方法，采用变量和数据分割，从而实现在线性变换稀疏性约束下控制假发现率，在阿尔茨海默病的结构磁共振成像数据集中可以发现萎缩的脑区以及其异常连接。

Mar, 2021

基于误差的 Knockoffs 推断用于受控特征选择

提出了一种基于误差的模型 - X knockoff 推断方法，结合 knockoff 特征、基于误差的特征重要性统计量和 stepdown 过程，以应对高维数据下的特征选择，并在模型无需指定的情况下，能够控制误发现比例（FDP）、FDR 或 k-FWER 的理论保证。经验证明了该方法在模拟和实际数据上均具有竞争力的性能。

Mar, 2022

基于模拟数据过滤器的群稀疏和多任务回归中的 FDR 控制

本文提出了一种组合 knockoff 过滤方法，用于控制假发现率，可在回归分析环境中对分组特征进行选择，并考虑了组层面上的真假发现，相对于稀疏回归方法，该方法具有更高的功率。我们还将该方法应用于多任务回归问题，在其特征集合中，多个响应变量共享类似的稀疏模式，通过利用组结构，成功地控制了组层面上的假发现，并发现了更多的结果。

Feb, 2016

高维条件变量选择的 Model-X 仿制品

提出了一种新的 $model$-$X$ knockoffs 框架，可以在高维逻辑回归中有效地控制假发现率，甚至可以在条件分布完全未知的情况下实现控制变量选择，并且在研究英国克罗恩病的病例对照研究中，与原始分析相比可以发现两倍的结果。

Oct, 2016

利用 Knockoffs 寻找 Hidden Markov 模型中的基因

本文扩展了模型无关窃取的方法，介绍了一种有效的算法来对隐藏马尔可夫模型进行采样，并说明与选择性框架相结合，可应用于基因组关联研究，并应用于研究克罗恩病和胆固醇水平等连续表型。

Jun, 2017

具有统计保证的条件显著特征发现

本研究旨在研究条件特征选择问题，提出了一种基于 knockoff 程序泛化的算法，在控制条件下实现特征选取并保证伪发现率，应用于基因相关研究中。

May, 2019