Oct, 2023

评价大型语言模型在指令遵循方面的表现

TL;DR这篇研究通过引入一个具有挑战性的元评估基准LMMBar,调查了大型语言模型(LLMs)在评估指导遵循生成文本方面的效力,发现不同评估器对LMMBar的性能表现不同,最高分的评估器仍有改进的空间,并提出了一套新颖的提示策略来缩小LLM和人类评估器之间的差距。通过LLMBar希望提供对LLM评估器的更多洞察,并促进未来开发更好的指导遵循模型的研究。