Mar, 2024

基于 LLMs 的中国常识推理基准评估:从中国特定性到推理记忆相关性

TL;DR我们介绍了CHARM,这是首个全面深入地评估大型语言模型(LLMs)在中文常识推理能力方面的基准。我们利用5个代表性的提示策略对CHARM进行评估,发现语言模型的语言定位和任务领域会影响提示策略的效果,这丰富了以前的研究结果。我们构建了紧密相连的推理和记忆任务,发现一些语言模型在记忆中文常识方面遇到困难,影响其推理能力,而其他模型在相似的记忆表现下呈现不同的推理能力。我们还评估了语言模型在无记忆推理能力上的表现,并分析了典型错误。我们的研究准确地确定了语言模型的优势和劣势,并为优化提供了明确的方向。它还可以为其他领域的研究提供参考。我们将在此URL发布CHARM。