Sep, 2024

HLB:大型语言模型人类语言使用的基准评估

TL;DR本研究解决了合成数据在训练语言模型中对人类语言模式的偏离问题,提出了一个全面的人类语言使用基准(HLB),通过10个心理语言学实验评估20个大型语言模型(LLMs)。研究发现,LLMs在不同语言层面上再现实人类反应的能力存在细微差异,并指出其他性能指标的提高不一定意味着人类语言相似度的提升。