探究姓氏对语言模型的因果效应：以社交常识推理为例

Jun, 2023

探究姓氏对语言模型的因果效应：以社交常识推理为例

Examining the Causal Effect of First Names on Language Models: The Case of Social Commonsense Reasoning

Sullam Jeoung, Jana Diesner, Halil Kilicoglu

TL;DR本研究旨在检验语言模型中名字对常识推理能力的影响，并提出了可控性实验框架和解释分析来证明了首次提出的假设，即一般的常识推理与他们所用的人名无关，结果显示人名的频次对模型的预测产生了不同的影响，并建议在数据集配置阶段增加更多多样性的人名以确保模型的健壮性。

Abstract

As language models continue to be integrated into applications of personal and societal relevance, ensuring these models' trustworthiness is crucial, particularly with respect to producing consistent outputs rega

language models trustworthiness commonsense reasoning first names model predictions

发现论文，激发创造

人口属性和标记长度对名字偏见的影响：尼谢尔和南希

这篇论文通过使用名字替代实验，探讨社会常识推理模型在种族、民族和性别等维度上表现出社会偏见的趋势，并发现名字的人口统计属性和标记长度等因素可能影响模型行为。

May, 2023

降低对话文本生成中说话人姓名的敏感性

本研究提出了量化模型对话中 “发言者名称敏感度” 的方法，并全面评估了多种降低敏感度的方法，包括我们自己的新方法。该方法在多个数据集上进行的大量实验为问题提供了基准，并显示了我们的方法在减少敏感度和生成质量方面的有利表现。

May, 2023

神经 NLI 模型中自然逻辑特征的因果效应估计

本文探讨了如何评估语义特征对语言模型预测的因果效应以及如何利用因果分析方法构建比较模型来评估 NLI 任务，强调因为可解释性和模型评估的需要，对于具有足够结构化和规律性的推理模式进行系统分析是非常有价值的

May, 2023

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

神经语言表征是否学习了物理常识？

本文研究了目前最先进的神经语言表示在物理常识推理方面的表现，结论显示，尽管神经语言模型在各种自然语言推理任务上表现出色，但在物理常识方面仍然只能学习到现有的明确规则和关联性。

Aug, 2019

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

停！瑕疵之名: NLP 中解析个人姓名和社会人口属性

个人姓名同时区分个体并按一定方式进行分类，这对于一个特定的社会来说非常重要。然而，自然语言处理领域在不同任务中将个人姓名与社会人口特征联系起来时，研究人员在解决方法学上的问题上参与程度不同。为了指导未来工作，我们提供了有关姓名和命名的跨学科背景知识。然后，我们调查了将姓名与社会人口属性相关联的问题，包括有效性问题（如系统误差、构造效度）以及伦理关切（如危害、差异影响、文化不敏感性）。最后，我们提供了引导性问题和规范建议，以避免在处理自然语言处理中的姓名和社会人口特征时的有效性和伦理问题。

May, 2024

语言模型展示人类类似的结构启动效应吗？

我们研究了语言模型预测中在句子和单词级别发挥重要作用的语言因素，并调查这些因素是否反映了人类和人类语料库中的结果。我们利用结构启动范式，其中对结构的最近暴露有助于相同结构的处理。我们不仅调查了引导效果是否发生，还调查了它们发生的位置以及预测它们的因素。我们表明，这些效应可以通过逆频率效应来解释，即在人类引导中众所周知，引导中的较罕见元素增加引导效果，以及引导和目标之间的词汇依赖性。我们的结果为如何理解上下文中的属性如何影响语言模型中的结构预测提供了重要线索。

Jun, 2024