MOCHA：用于训练和评估生成式阅读理解指标的数据集

Oct, 2020

MOCHA：用于训练和评估生成式阅读理解指标的数据集

MOCHA: A Dataset for Training and Evaluating Generative Reading Comprehension Metrics

Anthony Chen, Gabriel Stanovsky, Sameer Singh, Matt Gardner

TL;DR将阅读理解视为生成问题可提供更多的灵活性，但现有的生成度量依赖于词汇重叠，对于阅读理解的细微 nuance 不偏不倚。为解决这个问题，我们引入了 MOCHA 作为评估阅读理解模型度量的基准，并使用 LERC 作为训练模型来模仿人类判断分数。使用 MOCHA 数据集，LERC 的表现优于基准度量，并在最小配对的鲁棒性评估上达到了 80％的准确度，这个难题为开发准确且鲁棒的生成阅读理解度量提供了重要参考。

Abstract

Posing reading comprehension as a generation problem provides a great deal of flexibility, allowing for open-ended questions with few restrictions on possible answers. However, progress is impeded by existing gen

发现论文，激发创造

学会提问: 神经网络阅读理解问题生成

该研究采用基于注意力机制的序列自学习模型进行阅读理解中基于句子的自动问题生成，相比于之前的工作，该模型不依赖于手工规则或复杂的自然语言处理技术，并在人工和自动评估中都呈现出更加自然和困难的问题。

Apr, 2017

STARC: 面向阅读理解的结构化注释

STARC是用于评估阅读理解的结构化注释框架，该框架引入了一种答案选择的有理结构并将其与文本跨度注释绑定。使用OneStopQA数据集作为基础，可以使用STARC进行自动注释质量探测和机器阅读理解行为与人类进行深入分析和比较。RACE标准数据集在阅读理解方面有局限性，而OneStopQA则为阅读理解提供了一种替代测试集。

Apr, 2020

使用关键词权重的生成式问答度量 KPQA

本研究提出了一种新的度量模型KPQA-metric，通过关键词预测为不同的令牌分配不同的权重评估生成的回答，用于评估生成式问答系统的正确性，并通过人类评估数据集表明，KPQA-metric与现有度量模型具有更高的相关性。

May, 2020

建模生成问题策略，实现阅读理解测试中的问题生成

本研究提出了一种用于阅读理解的问答生成模型（HTA-WTA），通过使用story-based阅读理解技能（SBRCS）来对阅读能力进行更全面的评估，并使用深度推理问题测试了HTA-WTA模型的强大性能。

Apr, 2022

SkillQG：学习为阅读理解评估生成问题

通过控制问题的理解类型提高机器阅读理解质量，本文提出了$ extbf{$ exttt{SkillQG}$}$框架。在一个基于技能的层级模式中，根据不同能力的问题，通过迭代调用预训练语言模型来生成针对不同能力问题的精细化评估和提高模型的生成问题。实证结果证明，$ exttt{SkillQG}$相对于基准线在质量、相关性和技能控制方面性能更优，在下游问答任务中也有很好的性能提升。

May, 2023

利用数据扩充和超生成-排序提高阅读理解问题生成

提出了一种基于数据增强和生成-排名方法的自动问题生成策略，该策略适用于阅读理解任务，可以有效地提高问题生成的准确率和多样性。

Jun, 2023

DecompEval：以无监督分解的问答方式评估生成文本

本文提出了一种简单而有效的度量方法DecompEval，该方法在自然语言生成（NLG）评估中使用了指令调整的预训练语言模型，以提高其泛化能力和可解释性。实验结果表明，DecompEval在未训练的度量标准中取得了最先进的性能，适用于评估文本摘要和对话生成的各种任务和评估维度，并具有较强的泛化能力和可解释性。

Jul, 2023

大型语言模型自动生成与评估阅读理解测试题

使用大型语言模型生成和评估阅读理解测试题目是一个有前途的方法，特别适用于没有足够可用数据的语言。

Apr, 2024

用问题关注的段落抽取增强预设的生成式语言模型在机器阅读理解中的应用

在自然语言处理领域，机器阅读理解（MRC）存在着重大挑战。尽管主流的MRC方法主要使用仅编码器模型（如BERT）利用抽取策略，但生成式方法面临着超出控制的生成问题——这是一个关键问题，生成的答案经常是不正确、不相关或与源文本不一致。为了解决生成式MRC模型的这些局限性，我们引入了Question-Attended Span Extraction（QASE）模块。在经过预训练的生成式语言模型（PLM）的微调阶段集成QASE模块，显著提高了它们的性能，使它们能够超越像GPT-4这样的先进大型语言模型（LLMs）的抽取能力。值得注意的是，这种性能提升并没有增加计算需求。QASE模块的有效性已经在各种数据集上进行了严格的测试，始终实现甚至超越最先进的结果（SOTA）。

Apr, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024