BriefGPT.xyz
Ask
alpha
关键词
chinese benchmark
搜索结果 - 3
CMMLU: 用于测量中文海量多任务语言理解的工具
本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU,并通过评估 18 种面向性能的多语言和中文 LLMs,在不同的主题和设置下评估它们的性能,结果显示,大多数现有 LLM 在提供上下文示例和思维链提示
→
PDF
a year ago
EMNLP
面向知识密集型文本 - 结构化查询语义解析的公式化知识方法
本文使用新的中文基准数据集 KnowSQL,提出了使用公式化知识库作为领域知识支持的重新分组(ReGrouP)框架来解决文本到 SQL 的知识密集问题,并在 KnowSQL 数据集上实现了 28.2%的整体性能提升。
PDF
2 years ago
ACL
CBLUE:一个中文生物医学语言理解评估基准
本文介绍了第一个中文生物医学语言理解基准评估(CBLUE),其涵盖了一系列自然语言处理任务,包括命名实体识别、信息抽取、临床诊断标准化、单句 / 句对分类,与相应的在线平台进行模型评估、比较和分析,并通过当前的 11 个预训练中文模型的实证
→
PDF
3 years ago
Prev
Next