ACLMay, 2023

大型语言模型能否替代人类评估?

TL;DR本文介绍了使用大型语言模型(LLM)代替人类评估来评估人工智能生成的文本的潜力,探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果,并发现 LLM 评估结果与人类专家的评估结果保持一致。