BriefGPT.xyz
Aug, 2024
DHP基准:大型语言模型是否是良好的自然语言生成评估者?
DHP Benchmark: Are LLMs Good NLG Evaluators?
HTML
PDF
Yicheng Wang, Jiayi Yuan, Yu-Neng Chuang, Zhuoer Wang, Yingchi Liu...
TL;DR
本研究针对现有自然语言生成(NLG)评估中缺乏对大型语言模型(LLMs)能力探索的问题,提出了“层次扰动的辨别力(DHP)”基准框架。该框架通过层次扰动文本数据与统计测试,为LLMs提供量化的评估分数。研究发现,LLMs在不同NLG任务中的评估能力存在显著差异,为LLMs作为NLG评估者的优势与局限性提供了重要见解。
Abstract
Large Language Models
(LLMs) are increasingly serving as evaluators in
Natural Language Generation
(NLG) tasks. However, the capabilities of LLMs in scoring NLG quality remain inadequately explored. Current studi
→