May, 2023

GPT 的年龄是多少?:使用人口统计数据的 HumBEL 框架来评估语言模型

TL;DR本研究提出了一种通过临床方法测量和比较语言模型语言技能,以及自动化技术对其进行评估的方法,发现 GPT-3.5 模型在不同任务中具有不同的能力,并在社交语言使用上存在困难。因此在使用这些模型作为公共工具时,重要考虑社会任务需求及相关人群的使用差异。