KOBEST: 韩国重要任务平衡评估
这项研究介绍了 KoDialogBench,一个用于评估语言模型在韩语会话中的能力的基准测试。实验结果表明,语言模型在会话技能方面仍有很大的改进空间,并且最近的训练技术在增强会话能力方面非常有效。
Feb, 2024
该论文介绍了 Open Ko-LLM 排行榜和 Ko-H5 基准作为在韩语中评估大型语言模型 (LLMs) 的重要工具。该工具在韩国 LLM 社区中被广泛接受,并通过引入私有测试集进行数据泄漏分析,证明了私有测试集的好处。此外,论文提出了超越基准测试的需求,并希望通过 Open Ko-LLM 排行榜为扩大 LLM 评估,促进更多的语言多样性树立先例。
May, 2024
我们构建了一种基于知识导向的大型语言模型评估基准,并通过使用维基百科和不断收集出现的语料库来确保数据的公正比较,评估 21 个开源和商业大型语言模型的能力和知识相关度。
Jun, 2023
通过在 HAE-RAE 评估中发现,相较于全面的通用模型 GPT-3.5,大规模的语言特定模型 (LLSMs) 在语言特定知识检索方面展现出类似的性能水平,强调了使用同质化语料库来训练专业级语言特定模型的重要性,但较小的 LLMs 在生成结构化回答时表现出令人困惑的性能下降。
Sep, 2023
本研究基于 Transformer 模型提出了一个基于多任务的波兰语言解析的测试基准,并介绍了针对该语言的 Transformer 模型 HerBERT,该模型在 9 个任务中表现最好,其中包括命名实体识别和情感分析等多个领域。
May, 2020
我们提出了 KMMLU,这是一个新的韩语基准,包括来自 45 个学科的 35,030 个专家级多项选择题,涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同,KMMLU 收集了来自原始韩语考试的问题,捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型,发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54%,远远低于人类平均表现 62.6%。该模型主要用于英文和中文训练,而不是韩语。对于韩语,当前的适用 LLMs,例如 Polyglot-Ko,表现得更差。令人惊讶的是,即使是最强大的专有 LLMs,例如 GPT-4 和 HyperCLOVA X,分别只能达到 59.95%和 53.40%。这表明需要进一步改进韩语 LLMs,而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集,并将这个基准整合到 EleutherAI 的语言模型评估工具中。
Feb, 2024
介绍了韩语自然语言理解评估标准 KLUE,涵盖 8 个韩语自然语言任务。该标准通过从多种资源语料库中构建任务和数据,并注重版权保护和伦理考虑来保证对任何人的无限制性可达。提供了合适的评估方法,预训练语言模型的微调配方以及语言模型 KLUE-BERT 和 KLUE-RoBERTa 等预训练语言模型,以帮助重现 KLUE 上的基线模型并促进未来研究。KLUE 资源还可用于其他语言的创建。
May, 2021
为了加速韩文自然语言理解的研究,我们构建并发布了韩文 NLI 和 STS 数据集,分别称为 KorNLI 和 KorSTS,该数据集是通过机器翻译现有的英语训练集和手动翻译开发和测试集来构建的,并在其上建立了基线模型。
Apr, 2020
这篇论文介绍了 GAOKAO-Benchmark,它是一个直观的基准测试,利用中国高考考试的问题作为测试样本,对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率,发现 ChatGPT 模型在解决客观问题方面表现优异,同时也揭示了它的不足之处和改进方向,为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。
May, 2023