EMNLPOct, 2023

跳动的节拍:64 种语言中的 LLM 社交语用理解研究

TL;DR通过对跨语言社会语用含义 (SM) 的多语言预训练语言模型和指导调整的 LLM(如 BLOOMZ 和 ChatGPT)在多语种基准测试 SPARROW 上的性能评估,发现开放源代码的指导调整型 LLM 仍然在各种语言中难以理解 SM,在某些情况下接近随机基线,ChatGPT 虽然优于许多 LLM,但与特定任务微调模型之间仍存在 12.19 SPARROW 分数差距。