语言生成模型对合成流量生成任务的评估度量

Nov, 2023

语言生成模型对合成流量生成任务的评估度量

Evaluation Metrics of Language Generation Models for Synthetic Traffic Generation Tasks

Simone Filice, Jason Ingyu Choi, Giuseppe Castellucci, Eugene Agichtein, Oleg Rokhlenko

TL;DR本文提出并评估了几种用于比较生成的流量与真实用户文本分布的度量标准，证明了常见的自然语言生成度量指标对于评估合成流量生成任务不适用。通过在三个任务上的实验验证，即购物话语生成、产品问题生成和查询自动完成，我们得出结论：我们的度量标准对于评估合成流量生成任务是有效的，且与人工判断的一致性相比普通的自然语言生成度量指标提高了 20%。我们相信这些研究结果可以为更好地估计合成文本数据的代表性提供解决方案。

Abstract

Many natural language generation (NLG) tasks aim to generate a single output text given an input prompt. Other settings require the generation of multiple texts, e.g., for synthetic traffic generation (STG). This

natural language generation synthetic traffic generation nlg metrics qa systems conversational agents

发现论文，激发创造

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

压缩、转换和创造：一个评估自然语言生成的统一框架

本文提出了一种统一的自然语言生成（NLG）任务评估度量方法，基于信息对齐的概念，通过设计可解释的度量标准并使用自监督模型实现了度量方法的操作化，结果表明所提出的统一设计度量方法在各种 NLG 实验中具有比现有度量方法更强的相关性。

Sep, 2021

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

关于文本生成模型基于评估指标的盲点

本文探讨了一种有用但经常被忽视的强健性分析方法，即使用合成数据进行压力测试。我们检查了基于预训练语言模型的一系列最近提出的生成、翻译和摘要任务的评估度量标准，并揭示了现有度量标准中的一些盲点和不足。我们找到了一些度量标准的不敏感性、偏见甚至漏洞，并对这些盲点的原因进行了调查，并提出了更可靠的文本生成评估的实用解决方案。

Dec, 2022

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017

评价问答生成系统的更优指标

本文研究了使用 $n$-gram 相识度量（例如 BLEU、NIST 等）来评估自然语言生成（NLG）系统的性能，尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现，当前的自动评估指标并不总是能够客观地评估生成问题的可回答性。为了解决这个问题，本文提出了一个得分函数，并将其与现有的度量标准进行整合，这些度量标准与人类判断的相关性显著提高。

Aug, 2018

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020