使用句子作为文本评估的基本单位

Aug, 2022

使用句子作为文本评估的基本单位

SMART: Sentences as Basic Units for Text Evaluation

Reinald Kim Amplayo, Peter J. Liu, Yao Zhao, Shashi Narayan

TL;DR本研究介绍了一种新的文本生成评估指标 SMART，其以句子为匹配的基本单位，通过句子匹配功能软匹配候选句子和参考句子，并与源文档中的句子进行比较以进行评估。实验结果表明，SMART 指标在评估长文本时优于其他评估指标，在无神经网络时再现了基于模型的指标，同时对于长摘要的评估效果良好，且不偏向特定模型。

Abstract

Widely used evaluation metrics for text generation either do not work well with longer texts or fail to evaluate all aspects of text quality. In this paper, we introduce a new metric called SMART to mitigate such

evaluation metrics text generation smart metric sentence matching source document

发现论文，激发创造

在段落级别上训练和元评估机器翻译评估指标

机器翻译中，自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法，并利用这些新数据集对现有句子级指标进行基准测试，以及在段落级训练学习指标。有趣的是，我们的实验结果表明，使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种现象方面的局限性。

Aug, 2023

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

以词和句相似性重新思考评估

本文提出了 EvalRank 作为一种新的内部评估方法，它在 60 多个模型和流行数据集上进行了深入的实验，并释放了实用的评估工具包用于未来的基准测试。

Mar, 2022

风格转移和改写：寻找合理的语义相似性度量

本文分析了超过十余种测量两个短文本的语义相似性的方法，并使用一个新的标记为语义相似性的 14,000 句子数据集证明文献中使用的这些度量标准都不能够足够接近人的判断。虽然有一些最近提出的度量标准提供了具有可比性的结果，但 Word Mover Distance 被证明是目前测量改写文本的语义相似性的最合理的解决方案。

Apr, 2020

基于通用句子表示的自动机器翻译评估度量

通过利用大规模数据训练句子表示方法，该论文研究了通用句子表示方法在机器翻译质量评估中的应用，并实现了仅基于句子表示特征的 WMT-2016 数据集的最先进性能。

May, 2018

句对打分：迈向文本理解的统一框架

本文提出新的统一框架，比较了常见的 IR 度量和神经模型在多个句子对分数任务和数据集上的性能，并尝试通过发布新的数据集来改进比较。我们提出了一种统一的开源软件框架，具有易于插拔的模型和任务，使我们能够尝试使用训练好的句子模型进行多任务复用并在 Ubuntu 对话数据集上提出了新的最优结果。

Mar, 2016

SummEval: 重评摘要评估

本文针对现有的缺陷和问题，提出了五个维度的解决方案，从而能够扩大文本摘要的评估标准，并且进一步研究出与人类判断更加相关的评价指标。

Jul, 2020

MaskEval: 基于加权 MLM 的文本摘要和简化评估

该研究提出了一种适用于文本摘要和简化的无需参考的评估测量方法 MaskEval，该方法使用了掩码语言模型，通过注意力权重机制来调节每个 MLM 步骤的重要性，从而实现了对不同质量维度的适应性评估。

May, 2022

基于文本匹配的抽取式摘要

通过语义文本匹配任务范式，本论文提出了一种新的神经抽取式摘要系统构建方法。经过与原有抽取式摘要方法数据集的实验对比，该方法取得了更好的抽取结果，并通过对 CNN / DailyMail 数据集的实验，创造了 44.41 的新高水平。我们相信，这种基于匹配的摘要框架的潜力还未完全被利用。

Apr, 2020

度量度量工具：文本语料库语义度量自动评估

通过提出一系列的评估度量，本文对语义相似度度量的特征进行自动和可解释的评估，从而实现了对不同语义相似度度量方法行为的合理比较。通过对经典方法和最新方法的评估，我们的度量揭示了最近开发的度量在识别语义分布不匹配方面变得更好，而经典度量则对表面文本水平的扰动更加敏感。

Nov, 2022