评估大型语言模型在故事结局生成中的指令遵循能力

Jun, 2024

评估大型语言模型在故事结局生成中的指令遵循能力

Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation

Rem Hida, Junki Ohmura, Toshiyuki Sekiya

TL;DR通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于GPT-3.5。

Abstract

Instruction-tuned large language models (LLMs) have achieved remarkable performance across various benchmark tasks. While providing instructions to LLMs for guiding their generations is user-friendly, assessing their instruction-following capabilities is still unclarified due to a lack