Jun, 2024

历史问题中大型语言模型(LLM)的响应能力评估

TL;DR通过对十个选择的大型语言模型在法语历史事实方面的回应进行评估,我们发现大型语言模型在内容和形式方面存在许多不足之处,包括整体准确率不够高、对法语的处理不均衡以及回应中的冗长和不一致性问题。