ViLLM-Eval：越南大型语言模型的综合评估套件

Apr, 2024

ViLLM-Eval：越南大型语言模型的综合评估套件

ViLLM-Eval: A Comprehensive Evaluation Suite for Vietnamese Large Language Models

Trong-Hieu Nguyen, Anh-Cuong Le, Viet-Cuong Nguyen

TL;DR本研究介绍了 ViLLM-Eval，一个综合评估套件，用于衡量基于越南语背景下的基础模型的高级知识和推理能力，通过多项选择题和预测下一个单词的任务，评估了最先进的大语言模型在 ViLLM-Eval 上的表现，揭示了这些模型在理解和应对越南语任务方面仍有待改进的空间，该套件将有助于发现基础模型的关键优势和劣势，最终促进其发展并提升在越南用户中的性能。

Abstract

The rapid advancement of large language models (LLMs) necessitates the development of new benchmarks to accurately assess their capabilities. To address this need for Vietnamese, this work aims to introduce villm-eval

large language models villm-eval comprehensive evaluation suite vietnamese language tasks foundation models

发现论文，激发创造

跨越语言的视角：越南大型语言模型的微调和全面评估

通过为越南语进行精细调整并开发了综合评估框架，我们发现精细调整的大型语言模型在越南语上表现出更好的理解和生成能力，并且模型规模和训练数据质量对模型的性能有重要影响。

Mar, 2024

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

LaVy: 越南多模态大型语言模型

通过引入 LaVy 和 LaVy-Bench，我们在解决高质量多模式资源缺失的情况下，开创性地推进了越南语多模式大型语言模型的发展。

Apr, 2024

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

VLUE：越南自然语言理解的新基准和多任务知识迁移学习

为了评估新的自然语言理解模型在一系列任务上的表现，我们引入了第一个越南语语言理解评估（VLUE）基准，涵盖了五个不同的 NLU 任务，包括文本分类、跨度提取和自然语言理解。我们评估了七个最先进的预训练模型在我们提出的 VLUE 基准上的表现，包括多语言和越南语单语模型，并提出了 CafeBERT，一个在 VLUE 基准中所有任务上都取得优秀结果的最新预训练模型。

Mar, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现 LLM-based evaluators 在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub 综合评估平台，使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的 LVLM 评估流水线提供了启示。

Jun, 2023

融合评估器与 LLMs：Fusion-Eval

利用大型语言模型进行评估的新方法 “Fusion-Eval” 在 SummEval 数据集上取得了 0.96 的 Spearman 相关性，超过了其他评估方法，在 LLM 评估领域树立了新的标准。

Nov, 2023