Mar, 2024

衡量台灣普通話語言理解能力

TL;DR该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。