大型语言模型中的中文知识校正基准测试
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有LLM在提供上下文示例和思维链提示时仍然难以达到50%的平均准确性,而随机基准线为25%,这凸显出LLMs有显着的改进空间。
Jun, 2023
大语言模型的综合性和准确性评估需要全面而系统的基准。为此,我们提出了ZhuJiu基准,具有综合评估大语言模型的多维能力覆盖,多方面合作评估方法,全面的中文基准以及避免潜在数据泄漏的特点。我们对10个当前主流大语言模型进行了评估,并对结果进行了深入的讨论和分析。
Aug, 2023
评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试,利用现有的英文数据集,并专门针对评估传统汉语语言模型进行调整,包括问答、摘要、分类和表格理解等任务。评估结果表明,我们的模型在部分评估能力方面达到了与GPT-3.5相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究,我们已经开源了我们的基准测试并开放了模型供试用。
Sep, 2023
本文旨在研究知识编辑领域中源语言编辑对不同目标语言的交叉效应,通过将 ZsRE 从英文翻译成中文,构建大规模的跨语言合成数据集,对不同范式的知识编辑方法进行英文和中文的编辑,并评估其在不同方面的性能。进一步分析编辑模型的不一致行为并讨论其挑战。
Sep, 2023
本研究通过验证现行基于标记的大型语言模型在标记-字符关系方面的知识限制,并提出一种基于字符级或字节级标记的无标记模型,该模型在格式准确性方面表现优异,为解决生成中文古典诗歌的格式问题提供了一个可行的解决方案。
Jan, 2024
LLMs在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估LLMs对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。
Feb, 2024
LHMKE是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题,涵盖30个学科的75个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明,LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。
Mar, 2024
本研究介绍了FoundaBench,这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用FoundaBench对12个最先进的语言模型进行了全面评估,结果表明在中文语料库上预训练的模型性能更优,同时发现模型的推理和记忆能力存在显著差异。FoundaBench评估得出的见解为理解大型语言模型的基础知识奠定了新的标准,为未来领域的进展提供了一个强大的框架。
Apr, 2024
通过提出C^3bench,我们在五个主要的古文理解任务中广泛评估了15个代表性大语言模型的定量性能。结果表明,现有的大语言模型在古文理解任务上仍然表现不佳,相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。
May, 2024
TongGu is a CCU-specific LLM that utilizes ACCN-INS dataset, RAT, and CCU-RAG techniques to enhance Classical Chinese comprehension and reduce hallucinations.
Jul, 2024