CRASS: 用于测试大型语言模型反事实推理的新型数据集和基准

Dec, 2021

CRASS: 用于测试大型语言模型反事实推理的新型数据集和基准

CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models

Jörg Frohberg, Frank Binder

TL;DR介绍了使用 “CRASS” 数据集和基于问题的反事实推理条件作为一种新颖且强大的评估大型语言模型的工具的基准，其中包括与验证过的人类基准的得分支持。通过对六种最先进的模型进行测试，结果表明它对这些模型提出了有效挑战，并为它们的改进开辟了相当大的空间。

Abstract

We introduce the crass (counterfactual reasoning assessment) data set and →

crass counterfactual reasoning language models data set benchmark

发现论文，激发创造

评估计算机常识的理论基础基准

本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准，该基准旨在评估通识常识的各种方面，并基于少量的训练和验证示例进行学习。通过初步的测试结果表明，该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。

Mar, 2022

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

探究自动生成的反事实数据在情感分析中的有效性

提出了一种自动产生对立数据的方法，基于此数据增广训练集可以有效提高 NLP 模型的性能。

Jun, 2021

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

CRoW: 基于真实世界任务的常识推理基准

近期在自然语言处理 (NLP) 常识推理研究领域，已经取得了大量新的数据集和基准（benchmark）。然而，这些数据集中的大部分在人工场景中构建常识推理挑战，不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW，这是一个手动筛选的多任务基准，用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建，通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度（如物理、时间和社交推理）上的表现。我们发现，在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距，这表明在真实任务环境中，常识推理远未解决。我们将数据集和排行榜提供给研究社区。

Oct, 2023

DISCO: 利用大型语言模型提取短语反事实

该论文提出了一种名为 DISCO 的新框架，可以使用大规模语言模型生成高质量的反事实数据，并借助特定于任务的老师模型过滤生成，以提高模型的稳健性和泛化性能。实验结果表明，使用这种方式进行学习，学生模型的鲁棒性和跨分布能力比基线提高了 6%（绝对）和 5%。

Dec, 2022

通过反事实数据模拟改进对话式推荐系统

本文提出了一种名为 CFCRS 的对话推荐系统，该系统采用反事实数据模拟方法来减轻对话推荐系统中数据不足的问题，并设计了基于对话模式的多阶段模拟器和逐步优化数据增强策略的对抗训练方法

Jun, 2023

CREST: 理性化与因果文本生成的联合框架

本文介绍了一种名为 CREST 的联合框架，结合了选择性合理化和反事实文本生成的互补优势，实现了在对 NLP 模型进行分析和训练时的提取有意义的特征和提高模型稳健性的目的。

May, 2023

CRAB：评估现实世界事件之间因果关系的强度

通过引入 CRAB（Causal Reasoning Assessment Benchmark）来评估自然语言处理中事件因果关系的理解能力，发现大部分语言模型在复杂因果结构中的因果推理上表现不佳。

Nov, 2023

CREAK: 基于实体知识的常识推理数据集

引入了一个关于实体知识和常识推理的测试平台 CREAEK，在测试中模型需要融合实体知识和常识推理，该研究的实验结果表明，现有的基础模型在 CREAK 上的表现并不佳，CREAK 提供了一种评估自然语言理解模型的独特方法，测试的内容包括提取事实信息和隐含的常识知识。

Sep, 2021