bilingual benchmark | BriefGPT

关键词bilingual benchmark

搜索结果 - 4

CUDRT：人类与大型语言模型生成文本的检测基准
本文构建了一个综合的中英文双语标杆来评估主流的 AI 生成文本检测器，并将 LLM 文本生成划分为创建、更新、删除、重写和翻译五个不同的操作，为各种场景提供优化 AI 生成文本检测器的关键洞察和改进方向。
PDF21 days ago
ACLStatBot.Swiss: 双语自然语言下的开放数据探索
使用大型语言模型（LLMs）在 Text-to-SQL 系统方面的潜力主要集中在英文单语数据集上的评估，然而，LLMs 在其他语言上的表现鲜有研究。本研究发布了 StatBot.Swiss 数据集，这是第一个基于真实应用程序评估 Text-
PDFa month ago
ConceptMath：大型语言模型数学推理的双语概念评估基准
本研究介绍了 ConceptMath，它是一个双语（英文和中文）的细粒度基准，用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同，ConceptMath 通过将数学问题按照数学概念的层次进行系统组织，从而可
PDF4 months ago
RoleEval：大型语言模型的双语角色评估基准
该论文介绍了 RoleEval，一个旨在评估角色知识的记忆、利用和推理能力的双语基准测试，包括 RoleEval-Global 和 RoleEval-Chinese 这两个部分，旨在系统地探索角色的个人信息、关系、能力和经历的基础知识和多跳
PDF6 months ago