Nov, 2023

语言生成模型对合成流量生成任务的评估度量

TL;DR本文提出并评估了几种用于比较生成的流量与真实用户文本分布的度量标准,证明了常见的自然语言生成度量指标对于评估合成流量生成任务不适用。通过在三个任务上的实验验证,即购物话语生成、产品问题生成和查询自动完成,我们得出结论:我们的度量标准对于评估合成流量生成任务是有效的,且与人工判断的一致性相比普通的自然语言生成度量指标提高了 20%。我们相信这些研究结果可以为更好地估计合成文本数据的代表性提供解决方案。