Jun, 2023

两词测试:大型语言模型语义基准测试

TL;DR本篇研究提出了一种新的基于双词短语的语义能力评估测试(TWT),研究评估了GPT-4、GPT-3.5和Bard等大规模语言模型的能力,显示它们在评估短语的意义和辨别无意义词组方面均表现不佳,需要继续进行测试和改进。