锚定回归：异质数据迎接因果关系

Jan, 2018

锚定回归：异质数据迎接因果关系

Anchor regression: heterogeneous data meets causality

Dominik Rothenhäusler, Nicolai Meinshausen, Peter Bühlmann, Jonas Peters

TL;DR本文研究了在训练数据与测试数据分布不同的情况下，利用 anchor regression 方法通过使用外生变量来预测响应变量，并提高其可复现性和分布鲁棒性。

Abstract

We consider the problem of predicting a response variable from a set of covariates on a data set that differs in distribution from the training data. causal parameters are optimal in terms of predictive accuracy

predictive accuracy causal parameters anchor regression distributional robustness replicability

发现论文，激发创造

通过锚定多元分析提高泛化能力

我们通过引入因果正则化扩展到锚定回归（AR）来改善超出分布的广义。我们提出与锚定框架一致的锚定兼容损失，以确保对分布变化的鲁棒性。各种多变量分析（MVA）算法，如（正交化）PLS，RRR 和 MLR，都适用于锚定框架。我们观察到简单的正则化能增强在超出分布设置下的鲁棒性。我们提供了选择算法的估计器，展示了它们在合成和真实的气候科学问题中的一致性和功效。经验证实，锚定正则化的通用性凸显了其与 MVA 方法的兼容性，并在增强可复制性的同时防范了分布变化。扩展的 AR 框架推进了因果推断方法，解决了可靠的超出分布广义化的需求。

Mar, 2024

锚点数据增强

我们提出了一种用于非线性过参数化回归的数据增强算法，该算法借鉴了因果关系的文献，并扩展了最近提出的锚点回归 (AR) 方法，用于数据增强，与目前依赖于 Mixup 文献的领域不可知解决方案形成鲜明对比。我们的锚点数据增强 (ADA) 使用 AR 中修改后样本的多个副本，提供更多的训练样本，从而得到更强壮的回归预测。我们将 ADA 应用于使用神经网络的线性和非线性回归问题。ADA 与最先进的 C-Mixup 解决方案相竞争。

Nov, 2023

稳定的变量选择和回归

通过调整回归分析中的稳定和不稳定预测来考虑不同实验或环境的分布变化，引入了稳定回归分析的方法，使之前未见过的环境下的回归能力得到优化，应用于系统生物学研究中的假设生成并与因果模型建立理论关联，给出了优化的稳定点，并证明了在该点回归预测模型的预测误差最小。

Nov, 2019

序列数据的不变因果预测

本文提出了一种方法来从时间序列数据中推断出因果关系，该方法能够识别因果预测变量并保持环境和异质性模式不变。

Jun, 2017

向因果不变性正则化：带代理的线性模型

我们提出了一种学习线性模型的方法，该方法可使预测性能对无法观测变量的因果干预具有鲁棒性，当这些变量的噪声代理可用时。

Mar, 2021

锚定离散因子分析

本研究介绍了一种用于学习任意结构的离散因子分析模型的半监督学习算法，该算法假定每个潜在变量都有 “锚”，即仅有该潜在变量作为其父变量的观测变量。在给定这些锚的情况下，可以恢复隐变量的矩，并利用这些矩来学习完整的模型。同时，我们还介绍了一种提高矩方法算法健壮性的新技术，即通过优化边际多面体或其松弛度。我们在 Stack Overflow 网站提问的标签预测和急诊科医学诊断两个实际任务中对我们的算法进行了评估。

Nov, 2015

学习概念转变时：混淆、不变性和降维

基于观测数据的领域自适应问题，通过线性结构因果模型和表示学习方法，研究使用不变的协变量表示来解决概念漂移和改善目标预测的可行性，并通过在 Stiefel 流形上约束优化来证明大多数局部最优解与不变的线性子空间一致。通过验证实现方法和理论的三个真实数据集。

Jun, 2024

超出寻常：针对协变量转移的光谱自适应回归

设计深度神经网络分类器，能够在与可用训练数据不同的分布上具有强健性，是机器学习研究中的一个活跃领域。然而，回归的世纪问题 - 即建模连续目标的类似问题 - 仍然相对未经探索。为了解决这个问题，我们回归到第一原理，并分析了最小二乘回归的封闭形式解对协变量转移的敏感性。我们以源数据和目标数据的特征谱分解来表征 OLS 模型的超出分布风险。然后，我们利用这一洞察力，提出了一种方法，用于适应预训练神经回归模型的最后一层权重，以在来源于不同分布的输入数据上表现更好。我们展示了这种轻量级的谱适应过程如何改善合成数据集和真实数据集的超出分布性能。

Dec, 2023

利用回归不变性学习因果结构

在多环境中研究因果推断，介绍使用变量的功能关系的不变性来推断算法的完整性，提出了基线算法和交替算法，并展示了与其他现有算法相比所提出算法的性能优势。

May, 2017

领域适应的代理方法

我们研究了领域适应问题，该问题是由于未观察到的潜在变量分布改变所导致的分布偏移。我们的适应方法采用了近端因果学习，一种用于估计因果效应的技术，适用于存在未观察到的混淆变量代理的情况。我们证明了代理变量允许在不明确恢复或建模潜在变量的情况下适应分布偏移。我们考虑了两种情况：（i）概念瓶颈：观察到一个额外的 “概念” 变量，它介导了协变量和标签之间的关系；（ii）多领域：有来自多个源领域的训练数据，其中每个源领域对潜在混淆变量有不同的分布。我们在这两种情况下开发了一种两阶段核估计方法，以适应复杂的分布偏移。在我们的实验证明，我们的方法优于其他方法，尤其是那些明确恢复潜在混淆变量的方法。

Mar, 2024