May, 2023
LLMs是否理解社交知识?使用SocKET基准评估大型语言模型的社交能力
Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large
Language Models with SocKET Benchmark
TL;DR介绍了一种名为SocKET的新理论驱动基准来测试大型语言模型在社交语言理解方面的性能,结果表明当前模型表现中等,但是存在不同类型和类别任务之间的任务转移潜力,同时使用零样本评估方法揭示了预训练模型已经具备了对社交语言理解的某些固有能力,这个基准提供了系统性的方式来分析模型在语言的重要维度上的性能,为构建更加符合社交意识的大型语言模型提供了指导。