评估大型语言模型在高考基准测试上的表现

May, 2023

评估大型语言模型在高考基准测试上的表现

Evaluating the Performance of Large Language Models on GAOKAO Benchmark

Xiaotian Zhang, Chunyang Li, Yi Zong, Zhengyu Ying, Liang He...

TL;DR这篇论文介绍了 GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率，发现 ChatGPT 模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

Abstract

large language models have demonstrated remarkable performance across various natural language processing tasks; however, their efficacy in more challenging and domain-specific tasks remains less explored. This paper introduces the →

large language models gaokao-benchmark zero-shot prompts subjective questions objective questions

发现论文，激发创造

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

GAOKAO-MM: 中国多模态模型评估的人类水平基准

提出了 GAOKAO-MM，这是一个基于中国高考的多模态基准，评估了 10 个大型视觉语言模型 (LVLMs)，发现它们的准确率都低于 50％，排名前三的是 GPT-4-Vison（48.1％），Qwen-VL-Plus（41.2％）和 Gemini-Pro-Vision（35.1％）。多维分析结果表明 LVLMs 在人工通用智能 (AGI) 方面有适度的距离，并为多语言 LVLMs 的发展提供了启示。

Feb, 2024

ANGO：面向中文领域的下一级生成导向语言模型评估基准

这篇文章介绍了中国的一种多选题评估基准 ANGO，通过引入关键点分类标准，将每个问题与多个关键点对应，从而有效提高评估结果的可解释性。基于真人表现，我们构建了可量化的问题难度标准，并将 ANGO 问题分为 9 个难度级别，为模型训练提供更精确的指导。为了最小化数据泄露的影响并充分利用 ANGO 的创新特性，我们设计了独家的采样策略和新的评估框架，支持快速的测试集迭代。我们的实验证明，与现有基准相比，ANGO 对模型提出了更大的挑战，并在评估结果中展示了更多细节。

Jan, 2024

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

大型语言模型的日本金融基准构建

本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。

Mar, 2024

CGCE: 一个用于普及和金融领域的中文生成式聊天评估基准

引入中文生成式聊天评估基准（CGCE）基准，旨在评估和比较生成模型。该基准由 200 个一般领域问题和 150 个专业财务领域问题组成，可评估精确性、条理性、表达清晰度和完成度等因素，为研究人员提供标准框架，促进自然语言生成研究的发展。

May, 2023

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

高考历史挑战赛中的一次性问题回答学习

本研究提出了一种基于深度学习的问题 - 答案模型，采用协作门控神经网络协助神经图灵机标注器检索答案，并在历史考试的数据集上取得了较好的成果，相比各种神经模型基准，在多项评估指标上实现了实质性的性能提升。

Jun, 2018

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

评估大型中文语言模型的生成能力

CG-Eval 是首个综合评估大型中文语言模型在广泛学科领域中生成能力的研究，以多个指标的加权和为基础派生出 Gscore 综合指数，用于评估模型生成的质量。

Aug, 2023