利用项目反应理论比较测试数据集

ACLJun, 2021

利用项目反应理论比较测试数据集

Comparing Test Sets with Item Response Theory

Clara Vania, Phu Mon Htut, William Huang, Dhara Mungra, Richard Yuanzhe Pang...

TL;DR本文通过 Item Response Theory 方法对 18 个预训练 Transformer 模型在 29 个 NLP 数据集上进行实验，结果显示 Quoref，HellaSwag 和 MC-TACO 数据集更适合用于区分最先进的 NLP 模型，而 SNLI，MNLI 和 CommitmentBank 数据集已经达到饱和水平。另外观察到 QA 数据集（如 QAMR 或 SQuAD2.0）的任务形式在区分强弱模型方面非常有效。

Abstract

Recent years have seen numerous nlp datasets introduced to evaluate the performance of fine-tuned models on natural language understanding tasks<

nlp datasets fine-tuned models natural language understanding tasks item response theory pretrained transformer models

发现论文，激发创造

自然语言处理方法在问题难度估计中的定量研究

本研究通过定量分析之前研究中提出的几种方法，比较它们在三个不同教育领域包含不同类型问题的公开真实数据集上的表现，发现基于 Transformer 的模型在跨不同教育领域的 MCQs、科学题和数学题等方面表现最佳，超越其他方法甚至在较小的数据集上也表现得更好。

May, 2023

利用项目反应理论构建评估量表

本文提出一种基于心理度量学中的项目反应理论（IRT）的替代手段，用于生成金标准测试集和 NLP 系统的评估，通过实验证明 IRT 方法能提供更为全面的系统性能评估，并能更好地说明系统性能。

May, 2016

问答数据集让模型学到了什么？

本文通过评估五个数据集上的基于 BERT 的模型来研究模型是否从问答数据集中学习阅读理解，发现没有一个数据集能够具备全部实验的鲁棒性，并且发现了数据集和评估方法的不足，最后建议构建更好的 QA 数据集以评估阅读理解任务的问答能力。

Apr, 2020

基于 SQuAD 的神经问答模型比较分析

本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果，旨在理解和比较其特性，以迈向实现在多个领域中的泛化能力。研究发现，预测错误反映了某些模型特定偏差，本文对此进行了进一步讨论。

Jun, 2018

通过对比集评估模型的局部决策边界

提出了一种新的 NLP 注释范例，通过创建对照集，意在消除测试数据中的系统性差距，从而更准确地评估模型的真实语言能力。创建 10 个多样化的 NLP 数据集的对照集并将其作为新的评估基准发布。

Apr, 2020

QA 数据集爆炸：问答和阅读理解的自然语言处理资源分类

本文回顾了近年来深度学习模型在自然语言处理中的研究，并着重探讨了问题回答和阅读理解方面逾 80 种新数据集。除此之外，对现有各种格式和领域的资源进行了总结，并提出了新的技能分类法以及对过度专注于英语的影响。最后旨在为从业者和研究人员提供指引。

Jul, 2021

使用对比集的大型语言模型评估：一种实验方法

在自然语言推理领域中，交叉熵损失度量被广泛应用于多输入文本分类任务，但该度量方式在有效评估模型理解语义蕴涵能力方面存在不足。本研究引入一种创新技术，通过自动替换动词、副词和形容词的近义词来产生斯坦福自然语言推理数据集的对比集，以评估模型表现是否基于真实语言理解还是仅仅基于模式识别。研究使用 ELECTRA-small 模型进行分析，模型在常规的自然语言推理数据集上达到 89.9% 的准确率，但在对比集上准确率降低到了 72.5%，下降了 17%。由此结果导致我们对模型的学习行为进行了详细考察，然后通过针对自然语言推理数据集的对比增强训练数据集对模型进行微调，将其准确率提升到了 85.5%。我们的研究结果强调了在自然语言推理任务中加入多样化的语言表达的重要性，希望能促进创建更包容的数据集，从而推动更为复杂和有效的自然语言推理模型的发展。

Apr, 2024

基于 Transformer 的语言模型在抽取式问答中的比较研究

本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现，通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能，并发现 RoBERTa 和 BART 表现最佳。

Oct, 2021

能否使用 NLP 模型 ' 识别 '，' 区分 ' 和' 证明 ' 没有明确答案的问题？

尽管最先进的自然语言处理（NLP）系统在各种语言理解任务上取得了显著的表现，但它们主要关注那些有正确和明确答案的问题。然而，在现实世界的应用中，用户经常会问一些没有明确答案的问题。最新研究表明，即使是 SOTA 模型（包括 GPT-3 和 Flan T5）在正确识别和回答这类问题上也表现不佳，远远落后于人类基准水平。本研究介绍了一个包含五类没有明确答案的问题的数据集 QnotA，同时提供了每个 QnotA 实例的一个可回答问题。我们通过综合实验表明，我们的工作和发现将鼓励和促进进一步在这一重要领域的研究，并有助于开发更健壮的模型。

Sep, 2023

InPars: 使用大型语言模型的信息检索数据增强

利用大型预训练语言模型作为综合数据生成器，对于信息检索任务的未监督数据的微调，可以使检索器在零样本学习和有监督学习的任务中获得更好的表现

Feb, 2022