Aug, 2024

DHP基准:大型语言模型是否是良好的自然语言生成评估者?

TL;DR本研究针对现有自然语言生成(NLG)评估中缺乏对大型语言模型(LLMs)能力探索的问题,提出了“层次扰动的辨别力(DHP)”基准框架。该框架通过层次扰动文本数据与统计测试,为LLMs提供量化的评估分数。研究发现,LLMs在不同NLG任务中的评估能力存在显著差异,为LLMs作为NLG评估者的优势与局限性提供了重要见解。