Feb, 2024

基于LLM的评估者是否混淆了NLG质量标准?

TL;DR通过设计和实际测试,我们发现LLMs在自然语言生成(NLG)评估中存在混淆不同评估标准的问题,这降低了它们的可靠性。为了进一步验证,我们首先总结了一个清晰的层次分类系统,包括11个常见方面的相关标准,然后设计了18种针对不同LLMs评估行为的攻击方法,并进行人工标注验证,揭示了LLMs固有的混淆问题以及其他值得关注的现象,从而为基于LLMs的评估提出了进一步的研究和改进的必要性。