Feb, 2024

用于心理语言学合理性预测的大型语言模型

TL;DR使用语言模型生成合理性判断,并在多个语言结构中评估其与人类判断的相关性。发现GPT-4与人类判断高度相关,可代替人类进行粗粒度合理性预测试。但在需要细粒度判断时,即使是GPT-4也无法提供令人满意的区分能力。