常识推理任务的合理性研究:Winograd Schema Challenge 和 SWAG 的案例研究
本文通过 Answer Set Programming (ASP) 编码建立在图形子图同构上的方法尝试解决 Winograd Schema Challenge (WSC),并成功解决 240 个问题,提供了问题和相关常识知识的基于图形的表示。
Jul, 2019
本文介绍了一个自动系统,通过知识搜寻模块从网络上获取证据,利用搜索引擎返回的结果进行知识抽取和分类,对 Winograd Schema Challenge (WSC) 等常识推理任务进行求解,相比最佳方法提高了 0.21 的 F1 值,在 COPA 任务中也具有竞争力。
Oct, 2018
本文综述了 Winograd Schema Challenge,介绍了它的常识推理和自然语言理解挑战,并回顾了自提出以来已发布的数据集和方法,它是一种包含高度歧义代词的一对句子,需要深刻理解文本内容和情景以正确解决。
Apr, 2020
本文主要探讨了基于预训练语言模型的方法在 Winograd Schema(WS)测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化,提出了一种基于双子句的新评估方法,并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估,发现在严格的评估条件下,WS 基准的性能只是因为在训练 WS 模型时使用了监督,无法支持所需的所有常识推理技能和知识。
Apr, 2021
通过使用泰语 Winograd 模式集合,对流行的大型语言模型在泰语上的表现进行评估,揭示了它们的优势、局限性,并为当前技术发展提供了一些见解,结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度,但它们在泰语上的性能显著下降,突出了对多语言常识推理的进一步改进的需求。
May, 2024
介绍了一种新的数据集 WinoGrande,有效性在处理机器通用感性问题方面被证明,但同时提出存在机器学习算法数据集的偏见问题,需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。
Jul, 2019
近期在自然语言处理 (NLP) 常识推理研究领域,已经取得了大量新的数据集和基准(benchmark)。然而,这些数据集中的大部分在人工场景中构建常识推理挑战,不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW,这是一个手动筛选的多任务基准,用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建,通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度(如物理、时间和社交推理)上的表现。我们发现,在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距,这表明在真实任务环境中,常识推理远未解决。我们将数据集和排行榜提供给研究社区。
Oct, 2023
本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准,该基准旨在评估通识常识的各种方面,并基于少量的训练和验证示例进行学习。通过初步的测试结果表明,该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。
Mar, 2022
该论文首次对回答 Winograd Schema Challenge 所需的基本常识知识进行了全面分类,它们被分为六类主要知识类别。同时,通过开发新任务 WinoWhy,论文证明了预训练语言表示模型依旧存在缺陷。
May, 2020
本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法,通过对大量未标记数据的训练,优化单选题的得分,获得了很好的测试成绩,没有使用昂贵的注释知识库或手工特征工程。
Jun, 2018