异质性对于不变性和因果性的隐性偏见

Mar, 2024

异质性对于不变性和因果性的隐性偏见

The Implicit Bias of Heterogeneity towards Invariance and Causality

Yang Xu, Yihong Gu, Cong Fang

TL;DR从大规模语言模型、因果关系、以关联为导向的训练、数据异质性和随机梯度下降等方面，揭示了隐含的偏差存在。

Abstract

It is observed empirically that the large language models (LLM), trained with a variant of regression loss using numerous corpus from the Internet, can unveil causal associations to some extent. This is contrary to the traditional wisdom that ``association is not causation'' and the pa

large language models causality association-oriented training heterogeneity of data stochastic gradient descent

发现论文，激发创造

通过神经对抗不变性学习从异构环境中追求因果关系

通过数据驱动的方法，在结构因果模型框架下，提出了一种名为 Focused Adversarial Invariance Regularization (FAIR) 的新框架，用于解决多样环境下的不变性追求问题，并应用 FAIR-NN 估计器实现普适的非参数不变性学习。

May, 2024

非线性不变风险最小化：一种因果方法

提出了一种不变因果表示学习 (iCaRL) 方法，通过利用广义指数族分布得出数据表示，可以在非线性场景中实现超出分布的泛化，并发现目标的全部直接原因，针对合成和真实数据集提出性能优于基线方法的实验结果。

Feb, 2021

不变性、因果性和鲁棒性

本论文讨论了概率不变性或稳定性的概念及其如何应用于因果推断与预测鲁棒性问题。同时提出了一种用于风险最小化问题的因果形式化方法，通过估计常常出现在数据收集中的异构性或扰动数据来确定这种不变性。此新方法在许多应用中具有潜在的实用价值，比标准回归或分类框架中的机器学习或估计方法提供了更强的鲁棒性和更好的因果解释。

Dec, 2018

在稀疏机制转移假设下异质环境下的因果发现

本文探讨了在非独立同分布环境下学习因果结构的方法，提出了稀疏机制偏移假设，并应用于提出的机制偏移得分进行实证研究，结果证明了该算法具有较高的正确性和实用性。

Jun, 2022

大型语言模型是否能从相关性中推断因果关系？

这篇论文提出了一个新的任务 Corr2Cause 和一个数据集来评估大型语言模型（LLMs）的纯因果推理能力，并表明这些模型的因果推理能力很不足，尽管通过 fine-tuning 可以部分缓解这个问题，但它们仍不能在变量的名称和文本表达在测试集中不同的情况下泛化推理。

Jun, 2023

基于约束的因果发现的大型语言模型

本文研究了大型语言模型在生成因果图方面的能力，通过将条件独立性查询作为 LLM 的提示并与 PC 算法的答案结合，提出了一种基于统计启发的投票模式来改善性能，并发现因果推理可以用于对概率查询进行合理解释，从而证明了基于知识的因果推理可能成为一种补充数据驱动因果发现的工具。

Jun, 2024

(大型) 语言模型中实体偏见的因果视角

通过提出特定的结构因果模型（SCM）及其上的因果干预技术，在白盒和黑盒模型中缓解了实体偏差，该干预通过干扰原始实体与邻近实体来减少与原始实体有关的特定偏见信息，同时仍保留来自相似实体的充分共同预测信息，在关系抽取任务上，我们的训练时间干预将 RoBERTa 的 F1 得分在 EntRED 上提高了 5.7 分，在 GPT-3.5 上，我们的上下文干预有效减少了参数化知识和上下文知识之间的知识冲突，并将 F1 得分在一个具有挑战性的测试集中提高了 9.14 分。

May, 2023

利用回归不变性学习因果结构

在多环境中研究因果推断，介绍使用变量的功能关系的不变性来推断算法的完整性，提出了基线算法和交替算法，并展示了与其他现有算法相比所提出算法的性能优势。

May, 2017

大型语言模型能学习独立因果机制吗？

利用因果关系的两个概念在大型语言模型中学习独立因果机制，通过引入路由方案实现网络的专业化，并采用最小化互信息目标训练一个独立模块来学习抽象和领域不变机制，从而改善抽象和因果推理任务的超越分布性能。

Feb, 2024

大型语言模型中选择偏差引起的虚假相关性

本文探究了大型语言模型在数据选择偏见下如何学习原本条件独立的变量之间的统计依赖关系。为了验证这个效果，我们创建了一个遮掩性别任务，可以应用于 BERT 系列模型来揭示预测性别代词与一系列似乎与性别无关的变量（如日期和位置）之间的虚假相关性，我们展示了预训练（未经修改的）BERT 和 RoBERTa 大型模型的效果，最后，我们提供了一项在线演示，邀请读者进一步实验。

Jul, 2022