大型语言模型能否理解古代汉语?对 ACLUE 进行初步测试
为了满足大型语言模型(LLMs)对古代语境的理解的评估需求,本研究设计了 AC-EVAL 基准测试,用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务,AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势,促进它们在古代汉语语言教育和学术研究领域的发展和应用。
Mar, 2024
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性,而随机基准线为 25%,这凸显出 LLMs 有显着的改进空间。
Jun, 2023
该研究针对传统汉语在现有基准测试中的低覆盖率,提出了适用于评估大型语言模型的 TMLU 综合评估工具,通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释,基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差,而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距,研究发现存在提升潜力,强调了培养本土化台湾国语大型语言模型的目标,并公开了基准测试和评估脚本以促进未来研究。
Mar, 2024
通过提出综合性的中文基准 SuperCLUE,我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况,并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。
Jul, 2023
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023
本文提出了一种基于古汉语和现代汉语特点的 Ancient-Modern Chinese 从句对齐方法,综合了基于词汇和统计信息的两种方法,用于创建了一个包含 124 万个双语对的大规模语料库,并分析了在此数据集上各种机器翻译模型的性能,并为该任务提供了强大的基准。
Aug, 2018
该研究探索了 ChatGPT 在处理古代汉语方面的能力,通过翻译古代汉语为现代汉语和识别古代汉语姓名的两个任务来评估其对古代汉语的理解能力。研究发现:ChatGPT 在古代汉语方面的熟练程度尚未达到令人满意的水平,并且在输入三个上下文句子时,在古代汉语到现代汉语的翻译上表现最佳。为了帮助复现我们的工作,我们展示了本研究中使用的 Python 代码片段。
Dec, 2023
我们提出了中文金融语言理解评估基准 CFLUE,用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集,用于知识评估和应用评估,并进行了代表性大型语言模型的彻底评估。
May, 2024
为解决当前评估中文大型语言模型的挑战,我们提出了 CLEVA,一个用户友好的平台,通过标准化的流程评估模型的性能,并定期更新排行榜。CLEVA 还通过策略性的数据采样来减少数据污染,并通过易于使用的界面和模型 API 使用户能够进行全面评估。大规模实验已验证 CLEVA 的有效性。
Aug, 2023