潜在因果探索:基于数据的因果模型的形式化视角
该研究是一项针对自然语言处理中的因果关系研究,旨在提供因果推理与语言处理的交叉研究概述,并介绍了文本统计学方面的挑战和机遇,以及如何利用因果推理来提高NLP模型的健壮性,公平性和可解释性。
Sep, 2021
本文探讨了基于问题提示的探测方法可能存在的偏见、不一致性和不可靠性,强调了通过因果干预来消除偏差的必要性,并提出了更好的数据集设计、探测框架和更可靠的预训练语言模型评估标准。
Mar, 2022
通过引入多个潜在因素,本研究提出了一种结构因果模型 (meta-SCM),以整合不同的 NLP 任务,并只使用与特定任务相关的因果因素来进行预测,从而在提高零样本能力的同时避免了伪相关性的影响。
Feb, 2024
本文就LLM(如GPT4)在因果发现任务中的综合应用进行了全面的调查,系统地回顾和比较了现有的LLM利用方法,并强调了它们在推断因果结构中利用元数据和自然语言的创新使用。我们的分析揭示了LLM在增强传统CD方法和作为不完善专家方面的优势和潜力,同时也揭示了当前实践中存在的挑战和限制。此外,我们还确定了文献中的空白,并提出了旨在发挥LLM在因果研究中全部潜力的未来研究方向。据我们所知,这是第一次对LLM和CD之间的协同作用进行统一而详细的调查,为未来的进展奠定了基础。
Feb, 2024
语言模型对于心理语言学研究具有重要作用,该研究提出了CausalGym框架,通过评估多种解释性方法的因果有效性来研究语言模型的行为,并发现DAS方法在性能上优于其他方法。在此基础上,用pythia模型研究了负极性项许可和填充-间隙依赖这两个困难的语言现象,并分析表明这两个任务的实现机制是通过离散阶段学习而非逐渐学习。
Feb, 2024
本研究提出了一个全面的基准测试系统CausalBench,旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务,并结合不同难度的任务场景,该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用CausalBench评估了19种领先的大型语言模型,揭示了它们在各个方面的优势和弱点,并定量地探索了它们在不同场景中能力的上限。此外,研究还定量地呈现了不同信息源之间的差异,并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。
Apr, 2024
本文研究了影响大型语言模型(LLM)在因果发现任务中表现的因素,特别是预训练语料库中因果关系的频率如何影响模型的准确性。研究发现,因果提及频率越高,模型性能越好,表明训练过程中对因果信息的广泛接触提升了模型的因果发现能力。此外,文章还探讨了上下文对因果关系有效性的影响,揭示在不同上下文中相同因果关系可能导致模型的预测出现差异。
Jul, 2024
本研究解决了大型语言模型在因果关系方面的能力不足问题,提出了一种分层探究因果关系操控的新方法。通过使用检索增强生成和上下文学习,我们的实验显示,尽管大型语言模型能够识别与因果关系相关的实体,直接的因果关系依然未能被它们深刻理解。
Aug, 2024
本研究解决了因果探测方法在理论基础上的有效性评估缺乏系统和实证分析的问题。提出了一种通用的实证分析框架,明确界定和量化了因果探测的两个关键要求:完整性和选择性。研究发现这两者之间存在固有的权衡,无论哪种方法都无法同时满足这两个标准,而无效干预的方法在完整性上始终远低于反事实干预,表明其在因果探测中的有效性受限。
Aug, 2024