适应 ROUGE 和 BLEU 以更好地评估机器阅读理解任务

ACLJun, 2018

适应 ROUGE 和 BLEU 以更好地评估机器阅读理解任务

Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task

An Yang, Kai Liu, Jing Liu, Yajuan Lyu, Sujian Li

TL;DR本文通过统计分析了解到，在特定的问题类型中使用一些现有的评估度量指标很容易产生偏差，为了解决这个问题，需要对这些指标做出一些适应性的改进。通过对 ROUGE 和 BLEU 等评估度量指标的改进，我们提出了一种更好地将 n-gram 重叠与人类判断相关联的方法，通过统计分析证明了这种改进方法的有效性。这种改进方法可以为实际场景中的机器阅读理解系统的开发提供积极的指导。

Abstract

Current evaluation metrics to question answering based machine reading comprehension (MRC) systems generally focus on the lexical overlap between the candidate and reference answers, such as ROUGE and BLEU. However, bia

machine reading comprehension evaluation metrics bias question types adaptations

发现论文，激发创造

BLEU Meets COMET: 结合词汇和神经度量以实现机器翻译评估的稳健性

本研究探讨将传统评估方法如 BLEU 或 chrF 与基于神经网络的机器翻译评估方法如 COMET 或 BLEURT 相结合，通过使用附加的诸如句子级特征和单词级标签等额外信息训练评估指标，提高了最新状态下的机器翻译评估方法的稳健性，从而在几种语言对上提高了与人类判断的相关性和在挑战数据集上获得了更好的表现。

May, 2023

评估机器阅读理解数据集的基准测试能力

本篇研究提出了一种半自动化的消融实验方法，通过检查即使除去与语言理解相关的特征后是否仍然能回答问题，来评估语言理解能力挑战数据集的性能，实验结果表明，很多问题并不需要语法复杂的推理，为了精准评估 MRC 数据集，需要在设计时额外注意。

Nov, 2019

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

利用对抗攻击揭示机器阅读理解模型中的统计偏差

本文研究了预训练语言模型在机器阅读理解任务中表现的问题，发现现有模型的性能存在统计偏差，提出了一种有效的攻击方法以及一种改进的训练方法来解决这个问题。

May, 2021

朝向神经语言评估器

该研究回顾了 BLEU 和 ROUGE 两种不足，并提出了衡量文本摘要的好指标需要具备的标准以及使用最近的基于 Transformers 的语言模型来评估参考摘要与假设摘要的具体方法。

Sep, 2019

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020

提高多语言机器阅读理解答案边界检测能力

本文提出在 fine-tuning 阶段加入两个辅助任务，建立跨语言问题 - 段落对，并结合从 web 挖掘的知识短语进行跨语言 MRC，实验证明该方法有效。

Apr, 2020

机器阅读理解 Gold 标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

BLEURT: 学习文本生成的鲁棒度量

提出了一种基于 BERT 的学习评估指标 BLEURT，可以通过数千个训练实例建模人类判断，并使用数百万个合成实例的新型预训练方案来帮助模型泛化，提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。

Apr, 2020

机器阅读理解的稳健领域自适应

本文提出了一种名为 RMRC 的方法，使用对话和领域自适应技术构建问题 - 答案对，通过答案提取器和问题选择器以及增强式自训练方法进行优化，从而解决机器阅读理解中因领域迁移引起的问题，包括噪声对应和效率降低，实验证明了该方法的有效性。

Sep, 2022