GRUEN 用于生成文本的语言质量评估
本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。
Mar, 2022
介绍了一种名为 GREEN(生成式放射学报告评估和错误标注)的放射学报告生成度量方法,利用语言模型的自然语言理解能力定量和定性地识别和解释候选报告中的临床显著错误,该方法不仅与专家错误计数具有更高的相关性,而且与专家偏好更加一致。
May, 2024
MuLER 是一种将文本生成的评估指标转化为细粒度分析工具的新方法,可量化所选度量标准对特定错误类型(例如,位置名称错误)的惩罚程度,并通过分析展示了其在机器翻译等任务中的有效性和可用性。
May, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
提出了一种基于 BERT 的学习评估指标 BLEURT,可以通过数千个训练实例建模人类判断,并使用数百万个合成实例的新型预训练方案来帮助模型泛化,提供在 WMT Metrics 共享任务和 WebNLG 大赛数据集上的最佳结果。
Apr, 2020
本文章提出一种同时评估生成文本方法质量和多样性的度量标准,通过逼近学习生成模型和真实数据分布的距离,并介绍了基于 n-gram 和 BERT 特征的度量方法,并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后,使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估,确定提出度量标准的优势。
Apr, 2019
本研究旨在支持对生成文本的质量评估,并针对属性更相关性的 NLG 评估指标进行比较评估,提出了一种 AMR-based CheckList 方法,用于意义相关的语言现象,设计了 GraCo 评估指标,使用 AMR 计算词汇凝聚图,表明其作为一种有趣的 NLG 评估指标值得未来的研究探讨。
May, 2022
LUNA 是一个自然语言生成模型评估工具,通过引入 20 个不同的评估指标,基于参考依赖性和文本表示的类型进行分类。其设计简单易扩展,并提供了一个用户友好的评估生成文本的工具。
Jan, 2024
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019