锚定回归:异质数据迎接因果关系
我们通过引入因果正则化扩展到锚定回归(AR)来改善超出分布的广义。我们提出与锚定框架一致的锚定兼容损失,以确保对分布变化的鲁棒性。各种多变量分析(MVA)算法,如(正交化)PLS,RRR 和 MLR,都适用于锚定框架。我们观察到简单的正则化能增强在超出分布设置下的鲁棒性。我们提供了选择算法的估计器,展示了它们在合成和真实的气候科学问题中的一致性和功效。经验证实,锚定正则化的通用性凸显了其与 MVA 方法的兼容性,并在增强可复制性的同时防范了分布变化。扩展的 AR 框架推进了因果推断方法,解决了可靠的超出分布广义化的需求。
Mar, 2024
我们提出了一种用于非线性过参数化回归的数据增强算法,该算法借鉴了因果关系的文献,并扩展了最近提出的锚点回归 (AR) 方法,用于数据增强,与目前依赖于 Mixup 文献的领域不可知解决方案形成鲜明对比。我们的锚点数据增强 (ADA) 使用 AR 中修改后样本的多个副本,提供更多的训练样本,从而得到更强壮的回归预测。我们将 ADA 应用于使用神经网络的线性和非线性回归问题。ADA 与最先进的 C-Mixup 解决方案相竞争。
Nov, 2023
通过调整回归分析中的稳定和不稳定预测来考虑不同实验或环境的分布变化,引入了稳定回归分析的方法,使之前未见过的环境下的回归能力得到优化,应用于系统生物学研究中的假设生成并与因果模型建立理论关联,给出了优化的稳定点,并证明了在该点回归预测模型的预测误差最小。
Nov, 2019
本研究介绍了一种用于学习任意结构的离散因子分析模型的半监督学习算法,该算法假定每个潜在变量都有 “锚”,即仅有该潜在变量作为其父变量的观测变量。在给定这些锚的情况下,可以恢复隐变量的矩,并利用这些矩来学习完整的模型。同时,我们还介绍了一种提高矩方法算法健壮性的新技术,即通过优化边际多面体或其松弛度。我们在 Stack Overflow 网站提问的标签预测和急诊科医学诊断两个实际任务中对我们的算法进行了评估。
Nov, 2015
基于观测数据的领域自适应问题,通过线性结构因果模型和表示学习方法,研究使用不变的协变量表示来解决概念漂移和改善目标预测的可行性,并通过在 Stiefel 流形上约束优化来证明大多数局部最优解与不变的线性子空间一致。通过验证实现方法和理论的三个真实数据集。
Jun, 2024
设计深度神经网络分类器,能够在与可用训练数据不同的分布上具有强健性,是机器学习研究中的一个活跃领域。然而,回归的世纪问题 - 即建模连续目标的类似问题 - 仍然相对未经探索。为了解决这个问题,我们回归到第一原理,并分析了最小二乘回归的封闭形式解对协变量转移的敏感性。我们以源数据和目标数据的特征谱分解来表征 OLS 模型的超出分布风险。然后,我们利用这一洞察力,提出了一种方法,用于适应预训练神经回归模型的最后一层权重,以在来源于不同分布的输入数据上表现更好。我们展示了这种轻量级的谱适应过程如何改善合成数据集和真实数据集的超出分布性能。
Dec, 2023
我们研究了领域适应问题,该问题是由于未观察到的潜在变量分布改变所导致的分布偏移。我们的适应方法采用了近端因果学习,一种用于估计因果效应的技术,适用于存在未观察到的混淆变量代理的情况。我们证明了代理变量允许在不明确恢复或建模潜在变量的情况下适应分布偏移。我们考虑了两种情况:(i)概念瓶颈:观察到一个额外的 “概念” 变量,它介导了协变量和标签之间的关系;(ii)多领域:有来自多个源领域的训练数据,其中每个源领域对潜在混淆变量有不同的分布。我们在这两种情况下开发了一种两阶段核估计方法,以适应复杂的分布偏移。在我们的实验证明,我们的方法优于其他方法,尤其是那些明确恢复潜在混淆变量的方法。
Mar, 2024