Mar, 2024

AC-EVAL:在大型语言模型中评估古汉语理解能力

TL;DR为了满足大型语言模型(LLMs)对古代语境的理解的评估需求,本研究设计了 AC-EVAL 基准测试,用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务,AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势,促进它们在古代汉语语言教育和学术研究领域的发展和应用。