泰国 Winograd Schema：泰语常识推理基准

May, 2024

泰国 Winograd Schema：泰语常识推理基准

Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning

Phakphum Artkaew

TL;DR通过使用泰语 Winograd 模式集合，对流行的大型语言模型在泰语上的表现进行评估，揭示了它们的优势、局限性，并为当前技术发展提供了一些见解，结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度，但它们在泰语上的性能显著下降，突出了对多语言常识推理的进一步改进的需求。

Abstract

commonsense reasoning is one of the important aspect of natural language understanding, with several benchmarks developed to evaluate it. However, only a few of these benchmarks are available in languages other than English. Developing parallel benchmarks facilitates cross-lingual eval

commonsense reasoning benchmark winograd schemas thai language multilingual commonsense reasoning

发现论文，激发创造

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018

Winograd 模式挑战数据集和方法综述

本文综述了 Winograd Schema Challenge，介绍了它的常识推理和自然语言理解挑战，并回顾了自提出以来已发布的数据集和方法，它是一种包含高度歧义代词的一对句子，需要深刻理解文本内容和情景以正确解决。

Apr, 2020

回到起点：Winograd 模式中的工件检测、训练和常识分离

本文主要探讨了基于预训练语言模型的方法在 Winograd Schema（WS）测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化，提出了一种基于双子句的新评估方法，并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估，发现在严格的评估条件下，WS 基准的性能只是因为在训练 WS 模型时使用了监督，无法支持所需的所有常识推理技能和知识。

Apr, 2021

常识推理任务的合理性研究：Winograd Schema Challenge 和 SWAG 的案例研究

本研究论文研究现有的常识推理基准测试在实验设计方面存在的难题，提出了一种实验协议，分析了之前实验设计的威胁，以检验性能改进是否代表着通向通识系统的真正进展。

Nov, 2018

语言模型和人类对 Winograd Schema 扰动的敏感性

大规模预训练语言模型是最近在 Winograd Schema Challenge 上表现提高的主要驱动力，但我们通过一个新的诊断数据集表明，这些模型对最小程度影响人类理解的 Winograd 例子的语言扰动是敏感的。我们的结果突出了人类和语言模型之间的有趣差异：语言模型对数字或性别的替换和同义词置换更敏感，而人类在其预测中更稳定和一致，维持更高的绝对性能，在非联想实例上表现更好。总体而言，人类比开箱即用的模型更正确，在错误的原因上有时模型是正确的。最后，我们展示了在大规模的专门任务数据集上微调可以解决这些问题。

May, 2020

WinoWhy: 用于回答温罗德图谱挑战的基本常识知识的深度诊断

该论文首次对回答 Winograd Schema Challenge 所需的基本常识知识进行了全面分类，它们被分为六类主要知识类别。同时，通过开发新任务 WinoWhy，论文证明了预训练语言表示模型依旧存在缺陷。

May, 2020

基于注意力头的公共常识推理跨语言迁移研究

本研究提出一个新的简单方法，利用预先训练的跨语言模型来进行常识推理，并在多语言 Winograd 模式语料库上进行了评估，结果表明即使在其他语言中零样本情况下，该方法具有与监督和非监督方法相当的性能表现，并提供了多语言编码器普遍推理能力的证据。

Jun, 2021

通用常识推理的无监督深度结构语义模型

本文提出使用基于深度结构语义模型（DSSM）的神经网络模型，并借助大量未经监督学习的文本来学习常识知识，以解决常识推理任务（Winograd Schema challenges）和代词消岐（Pronoun Disambiguation），并证明其在句子上下文信息和代词和名词之间的引用信息捕捉方面的有效性和显著性改进。

Apr, 2019

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

通识推理知识狩猎框架

本文介绍了一个自动系统，通过知识搜寻模块从网络上获取证据，利用搜索引擎返回的结果进行知识抽取和分类，对 Winograd Schema Challenge (WSC) 等常识推理任务进行求解，相比最佳方法提高了 0.21 的 F1 值，在 COPA 任务中也具有竞争力。

Oct, 2018