韩国大型语言模型的实用能力评估

Mar, 2024

韩国大型语言模型的实用能力评估

Pragmatic Competence Evaluation of Large Language Models for Korean

Dojun Park, Jiwoo Lee, Hyeyun Jeong, Seohyun Park, Sungeun Lee

TL;DR通过评估Large Language Models（LLMs）的现状，我们探讨了LLMs在韩语背景下的语用能力，包括常规的多项选择题和开放式问题的评估，结果显示GPT-4在两种评估设置中表现出色，分别获得81.11和85.69分，HyperCLOVA X也得到了良好的分数，尤其在开放式问题的评估中，获得了81.56分，与GPT-4相比仅相差4.13分，而使用CoT提示的少样本学习策略则引入了对字面解释的偏见，限制了准确的语用推理能力，这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。

Abstract

The current evaluation of large language models (LLMs) predominantly relies on benchmarks focusing on their embedded knowledge by testing through multiple-choice questions (MCQs), a format inherently suited for a

发现论文，激发创造

HAE-RAE Bench：韩国知识在语言模型中的评估

通过在HAE-RAE评估中发现，相较于全面的通用模型GPT-3.5，大规模的语言特定模型(LLSMs)在语言特定知识检索方面展现出类似的性能水平，强调了使用同质化语料库来训练专业级语言特定模型的重要性，但较小的LLMs在生成结构化回答时表现出令人困惑的性能下降。

Sep, 2023

PUB：用于评估LLMs语用能力的语用理解基准

LLMs展示了对语义的出色理解能力，但在理解语用学方面常有困难。为了证明这一事实，我们发布了一个包含四个语用学现象的语用学理解基准（PUB）数据集，即合困推理、预设、参照和指示。我们为每个任务精选了高质量的测试集，包括多选题答案（MCQA）。PUB一共包含28k个数据点，其中6.1k个由我们创建，其余的则来自现有的数据集。我们评估了九个模型，参数数量和训练类型各异。我们的研究表明，对于较小的语言模型， fine-tuning能够显著提升其在遵循指令和聊天方面的语用学能力。然而对于较大的模型来说，基础版本与聊天适应版本的性能相当。此外，人类的能力和模型的能力之间存在明显的性能差距。此外，与人类在各种任务上的一致表现不同，模型在熟练度方面表现不稳定，性能水平因不同提示和任务复杂性而波动。总体而言，这个基准旨在全面评估LLM处理需要语用推理的现实语言任务的能力。

Jan, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

KMMLU：韩国语的大规模多任务语言理解测量

我们提出了KMMLU，这是一个新的韩语基准，包括来自45个学科的35,030个专家级多项选择题，涵盖人文学科到STEM学科。与之前从现有英语基准翻译而来的韩语基准不同，KMMLU收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。我们测试了26个公开和专有LLM模型，发现有显著的改进空间。最好的公开模型在KMMLU上的准确率为50.54％，远远低于人类平均表现62.6％。该模型主要用于英文和中文训练，而不是韩语。对于韩语，当前的适用LLMs，例如Polyglot-Ko，表现得更差。令人惊讶的是，即使是最强大的专有LLMs，例如GPT-4和HyperCLOVA X，分别只能达到59.95％和53.40％。这表明需要进一步改进韩语LLMs，而KMMLU提供了追踪这一进展的正确工具。我们在Hugging Face Hub上公开了我们的数据集，并将这个基准整合到EleutherAI的语言模型评估工具中。

Feb, 2024

CLIcK：韩国文化和语言智能的基准数据集

本研究介绍了一种基于大规模语言模型的韩文文化与语言智能测评方法，并提供了相关数据集CLIcK，通过13种语言模型的评估揭示了它们在各个领域的表现和影响因素。

Mar, 2024

多选题是否能够有效地检测LLM的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

Open Ko-LLM排行榜: 用Ko-H5基准评估大型语言模型在韩语中的表现

该论文介绍了Open Ko-LLM排行榜和Ko-H5基准作为在韩语中评估大型语言模型(LLMs)的重要工具。该工具在韩国LLM社区中被广泛接受，并通过引入私有测试集进行数据泄漏分析，证明了私有测试集的好处。此外，论文提出了超越基准测试的需求，并希望通过Open Ko-LLM排行榜为扩大LLM评估，促进更多的语言多样性树立先例。

May, 2024

多语言大型语言模型的多样语用评估

本研究介绍了MultiPragEval，一个旨在进行对LLMs的多语言语用评估的强大测试套件，跨越英语、德语、韩语和中文。MultiPragEval由1200个问题单元组成，根据Grice的合作原则及其四个对话准则进行分类，能够对LLMs的上下文意识和推断隐含含义的能力进行深入评估。我们的研究结果表明，Claude3-Opus在所有测试语言中明显优于其他模型，建立了该领域的最新技术。在开源模型中，Solar-10.7B和Qwen1.5-14B成为强大的竞争对手。这项研究不仅在LLMs的多语言评估中引领了道路，还为AI系统的高级语言理解所需的微妙的功能能提供有价值的洞见。

Jun, 2024

作为评审的LLM与奖励模型：它们能做什么，不能做什么

本研究主要探讨了作为评审的LLM和奖励模型在非英语环境中的有效性，填补了相关研究的空白。我们发现，英语评估能力往往对语言特定能力产生更大影响，而LLM在识别和惩罚实事求是错误及文化错位等方面存在显著不足。此外，本文发布了Kudge，这是一份包含5012个韩文人类注释的非英语元评估数据集。

Sep, 2024

开发评估韩国法律语言理解的大型语言模型的实用基准

本文致力于解决当前大型语言模型在非标准化任务和非英语语言任务中的评估不足问题。我们提出了KBL基准，专门评估大型语言模型对韩国法律语言的理解，包含多个法律知识和推理任务，以及韩国律师考试的样本。研究显示，当前模型在法律语言理解方面仍有显著提升空间，强调了进一步优化的必要性。

Oct, 2024