Jun, 2024

评估大型语言模型在故事结局生成中的指令遵循能力

TL;DR通过自动评估流程,本文提出的评估度量与人工评估结果吻合,验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。