May, 2024

泰国 Winograd Schema:泰语常识推理基准

TL;DR通过使用泰语 Winograd 模式集合,对流行的大型语言模型在泰语上的表现进行评估,揭示了它们的优势、局限性,并为当前技术发展提供了一些见解,结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度,但它们在泰语上的性能显著下降,突出了对多语言常识推理的进一步改进的需求。