人类语言模型协作的因果推断

ACLMar, 2024

Causal Inference for Human-Language Model Collaboration

Bohan Zhang, Yixin Wang, Paramveer S. Dhillon

TL;DR在本研究中，我们研究了人类和语言模型 (LMs) 之间的协同动力学，其中互动通常涉及 LM 提出文本段落而人类对这些提案进行编辑或回应。通过历史上人类和 LM 之间的相互作用，有效地与 LM 进行互动需要人类识别出适当的基于文本的互动策略，如编辑和回应风格。我们引入了一个新的因果估计标量 ——“增量风格效应 (Incremental Stylistic Effect, ISE)” 来回答由因果推理问题引起的困难，该问题是一个反事实的 “如果” 问题：如果人类采用不同的文本编辑 / 完善策略，协同的结果会如何改变？我们建立了非参数标识 ISE 的条件，并在此基础上开发了 CausalCollab 算法，用于估计动态人类 - LM 协作中各种互动策略的 ISE。在对三种不同的人类 - LM 协作场景进行的实证研究中，我们发现 CausalCollab 能够有效减少混淆，显著改善对照估计与竞争基线相比。

Abstract

In this paper, we examine the collaborative dynamics between humans and language models (LMs), where the interactions typically involve LMs proposing text segments and humans editing or responding to these propos

collaborative dynamics language models text-based interaction strategies causal inference counterfactual estimation

发现论文，激发创造

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

神经 NLI 模型中自然逻辑特征的因果效应估计

本文探讨了如何评估语义特征对语言模型预测的因果效应以及如何利用因果分析方法构建比较模型来评估 NLI 任务，强调因为可解释性和模型评估的需要，对于具有足够结构化和规律性的推理模式进行系统分析是非常有价值的

May, 2023

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

自然语言处理中的因果推断：估计、预测、解释及其它

该研究是一项针对自然语言处理中的因果关系研究，旨在提供因果推理与语言处理的交叉研究概述，并介绍了文本统计学方面的挑战和机遇，以及如何利用因果推理来提高 NLP 模型的健壮性，公平性和可解释性。

Sep, 2021

因果 ATE 减轻有控制的文本生成中的无意偏差

通过因果平均处理效应（因果 ATE）方法，研究语言模型中的属性控制。除去数据集中属性的虚假相关性，该方法减少了模型在推理过程中因对虚假相关变量的干扰而产生属性幻觉，并在分类任务中降低了误判的数量，从而解决了去毒化后对特定群体出现的无意识偏见问题。

Nov, 2023

因果关系：大型语言模型能真正理解因果关系吗？

提出了一种新颖的架构称为 “具有反事实分析的上下文感知推理增强框架”，通过将显式和隐式因果推理相结合，利用 ConceptNet 和反事实语句来提高因果推理和可解释性，进一步提供对因果关系的深度理解和促进可解释性。

Feb, 2024

利用人工智能自动生成心理假设：大型语言模型与因果图相结合

结合因果知识图谱和大型语言模型，我们研究在心理学中引入了一种开创性的计算假设生成方法。我们利用大型语言模型分析了 43312 篇心理学文章，提取了因果关系对。通过应用链接预测算法，我们生成了 130 个关注 “幸福” 的心理学假设，并与由博士学者构思的研究想法以及仅由大型语言模型生成的假设进行了比较。有趣的是，我们结合使用大型语言模型和因果图的方法在新颖性方面明显超过了仅使用大型语言模型生成的假设（t (59) = 3.34, p=0.007，和 t (59) = 4.32, p<0.001，分别）。通过深度语义分析，这种一致性得到了进一步的证实。我们的结果表明，结合大型语言模型和机器学习技术，如因果知识图谱，可以在心理学中实现自动化的发现，从广泛的文献中提取新颖的见解。这项工作处于心理学和人工智能的交叉点上，为心理学研究中基于数据的假设生成跨出了新的丰富范式。

Feb, 2024

利用语言模型模拟人类行为的挑战：因果推断视角

使用因果推断框架，我们在实证和理论上分析了进行 LLM 模拟实验的挑战，并探索了潜在解决方案，其中需求估计的上下文中，我们表明提示中所包含的处理变体（例如，商品价格）可能导致未指定混淆因素的变化（例如，竞争对手的价格，历史价格，外部温度），从而引入内生性并产生不太可能的平坦需求曲线。我们提出了一个理论框架，表明这种内生性问题推广到其他情境，并不能仅通过改进训练数据来完全解决。

Dec, 2023