本文探究了 NLG 评估中常用的自动化评估方法的局限性,并提出了一种系统和数据独立的新型评价方法,包括先进的基于词汇和基于语法的度量。实验证明,这些方法并不能完全反映人的判断,且表现受到数据与系统的影响。但是,自动评估仍可支持系统的开发,发现系统表现不佳的问题。
Jul, 2017
该文章调查了近年来开发的自然语言生成(NLG)系统的评估方法。将 NLG 评估方法分为三类,讨论了每种类别取得的进展和仍然面临的挑战,重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例,并提出了未来的研究方向。
Jun, 2020
自然语言生成(NLG)的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法,探讨了它们的优势和劣势,讨论了人机合作的 NLG 评估,并提出了该领域的几个开放问题和未来的研究方向。
Feb, 2024
本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证,提出了验证研究的最佳实践,并在 WMT'17 度量共享任务中进行了分析,同时也突出了未来的发展方向。
Jul, 2019
本文介绍了自然语言处理领域中用于测量模型性能的度量标准,发现当前使用的大多数指标存在评估不足及解释性差等问题,导致透明性和可重复性的降低。
Apr, 2022
研究透明度如何为机器人和人工智能提供自然语言解释,并评估自然语言生成方法的相关度量来生成这些解释,发现基于嵌入的自动自然语言生成评估方法具有更高的相关性,这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。
Mar, 2021
本文提出了一种基于测试设计的方法,用于概念化和评估自然语言生成评价指标的可靠性和有效性,并介绍了关于测量理论的核心概念及评估自然语言生成指标性能的关键方法。通过该框架的使用,本研究旨在促进设计、评估和解释可靠和有效的指标,最终为实际应用中健壮和效果良好的自然语言生成模型的提升做出贡献。
May, 2023
本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈:缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标,我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库,我们解决了第二个问题。
Jun, 2017
本文探讨了自然语言处理中,现有的语言生成系统的自动评估指标的局限性,提出了一些应该受到更多关注的失败案例,鼓励研究人员更加谨慎地考虑如何评价自动生成的文本。
Oct, 2020
该研究分析了基于人类评估方面作为上下文或目标来计算 NLG 自动度量的自动度量,并提出了度量偏好清单作为评估自动度量在三个 NLG 任务中的区分能力的框架。研究显示,多方面的人性化度量并不一定比单方面的人性化度量和任务不可知度量更为优越,并且自动度量在一些情况下提供了比人类更好的指导。该框架提供了验证自动度量是否忠实于人类偏好的访问,以及审查 NLG 系统的优势和局限性的能力。