OpenMEVA:用于评估开放式故事生成指标的基准
本文旨在研究自动生成临床笔记的评估方法和度量标准,提出了新的任务特定度量标准,并将其与现有文本摘要和生成的 SOTA 度量标准进行比较,研究分布和测量不同的自动摘要的正确性,并试图确定与人类判断相一致的最佳自动评估指标。
May, 2023
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
Apr, 2020
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
为了更方便地遵循最佳模型评估实践,我们引入了 GEMv2,它为数据集、模型和度量开发人员提供了一种模块化基础设施,可以受益于彼此的工作,并支持 51 种语言的 40 个数据集的模型在线评估。
Jun, 2022
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在 WMT'17 度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
提出了一种基于 BERT 的可学习无参考度量方法 UNION,该方法可以评估生成故事的质量,而不需要任何参考。它可以识别出人类编写的故事并恢复负面故事中的扰动,并模仿现有自然语言生成模型中常见的错误来构建负面样本。在两个故事数据集上的实验证明,UNION 是一种可靠的生成故事质量评估方法,与现有的最先进度量相比具有更好的相关性和可推广性。
Sep, 2020
本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。
Mar, 2022
介绍了一个名为 GEM 的用于自然语言生成(NLG)及其评估和指标的活跃基准。GEM 提供了一个环境,使得模型可以被应用于广泛的任务,并且可以测试评估策略。该基准将定期更新以更多的支持多语言,并与模型一起推进挑战,欢迎整个 NLG 社区参与我们在 ACL 2021 工作坊中组织的共享任务的数据描述。
Feb, 2021
通过建立个性化故事评估模型 PERSE,该研究拟解决大语言模型在开放式文本生成方面评估表现困难的问题,并通过两个新数据集 Per-MPST 和 Per-DOC 进行实验,研究结果表明该模型在故事评分和优先级预测方面均优于 GPT-4。
Oct, 2023