chinese llms | BriefGPT - AI 论文速递

关键词chinese llms

搜索结果 - 8

CRiskEval：中文大型语言模型多级风险评估基准数据集
我们提出了 CRiskEval，这是一个精心设计的中文数据集，旨在评估大型语言模型（LLMs）中固有的风险倾向，以便进行积极的准备。通过多项选择问答方式，我们定义了一个包括 7 种前沿风险和 4 个安全级别的新的风险分类法，并对问题答案进行
PDFa month ago
FoundaBench: 评估大型语言模型在中文基础知识能力上的表现
本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时
PDF2 months ago
FineMath：面向中文大语言模型的细粒度数学评估基准
为了全面评估大型语言模型（LLMs）的数学推理能力，我们需要精心策划评估数据集，涵盖不同难度级别的各种数学概念和问题。为此，我们在本文中提出了 FineMath，一个用于评估中文 LLMs 的细粒度数学评估基准数据集。FineMath 涵盖
PDF4 months ago
让 LLMs 应对最新挑战！一个中文动态问答基准测试
为了提高中文大型语言模型（LLMs）的问答能力，本文引入了 CDQA，这是一个包含与中国互联网最新新闻相关的问答对的中文动态问答基准，通过人工和模型相结合的流程获得高质量的数据，根据答案变化的频率仔细分类样本以便更精细地观察 LLMs 的能
PDF4 months ago
用于评估大型语言模型中的保障措施的中文数据集
通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的
PDF4 months ago
AAAICORECODE: 一个带有基准任务的常识注释对话数据集，用于中文大型语言模型
CORECODE 是一个包含丰富常识知识的中文大型语言模型的数据集，用于评估中文大型语言模型的常识推理和冲突检测能力。研究使用众包方式收集了 76,787 个常识知识注释，并通过对话级推理和检测任务验证模型在该数据集上的能力，结果表明现有的
PDF6 months ago
PromptCBLUE: 医学领域的汉语提示调优基准
为了促进医学大语言模型的研究，我们将中文生物医学语言理解评估 (CBLUE) 基准重新构建为一个大规模的提示调整基准，PromptCBLUE，用于评估中文大语言模型在广泛的生物医学任务上的多任务能力，包括医学实体识别、医学文本分类、医学自然
PDF8 months ago
SC-Safety：大语言模型中的多轮开放性问题对抗安全基准
引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT
PDF9 months ago