Aug, 2023

在图上评估大型语言模型:性能洞见与比较分析

TL;DR对四个大型语言模型在图数据分析问题上的能力进行评估,结果表明:1)大型语言模型能够有效地理解自然语言的图数据并进行图拓扑推理;2)GPT 模型能够生成逻辑和连贯的结果,在正确性方面优于其他替代方法;3)所有研究中的大型语言模型在结构推理方面面临挑战,零 - shot 推理和少 - shot 提示等技术效果减弱;4)在多答案任务中,GPT 模型常常产生错误答案,引发对可靠性的担忧;5)GPT 模型在输出上表现出较高的自信度,可能影响其纠正错误的能力。值得注意的是,GPT-4 显示了纠正 GPT-3.5-turbo 和其它版本回答的能力。