Apr, 2024

PhonologyBench 评估大型语言模型的音系技能

TL;DRLLMs 在语音学任务上的表现是一个重要但常被忽视的组成部分,我们通过三个诊断任务的基准测试,发现 LLMs 在英语语音学任务中与人类相比在押韵词生成和音节计数方面存在显著差距。因此,研究 LLMs 在语音学任务上的表现对于实际应用具有重要意义。此外,我们鼓励研究人员选择在与下游应用密切相关的语音学任务上表现优异的 LLMs 模型。