BriefGPT.xyz
大模型
Ask
alpha
关键词
bilingual benchmark
搜索结果 - 4
CUDRT:人类与大型语言模型生成文本的检测基准
本文构建了一个综合的中英文双语标杆来评估主流的 AI 生成文本检测器,并将 LLM 文本生成划分为创建、更新、删除、重写和翻译五个不同的操作,为各种场景提供优化 AI 生成文本检测器的关键洞察和改进方向。
PDF
21 days ago
ACL
StatBot.Swiss: 双语自然语言下的开放数据探索
使用大型语言模型(LLMs)在 Text-to-SQL 系统方面的潜力主要集中在英文单语数据集上的评估,然而,LLMs 在其他语言上的表现鲜有研究。本研究发布了 StatBot.Swiss 数据集,这是第一个基于真实应用程序评估 Text-
→
PDF
a month ago
ConceptMath:大型语言模型数学推理的双语概念评估基准
本研究介绍了 ConceptMath,它是一个双语(英文和中文)的细粒度基准,用于评估大型语言模型的概念级数学推理能力。与评估一般数学推理平均准确率的传统基准不同,ConceptMath 通过将数学问题按照数学概念的层次进行系统组织,从而可
→
PDF
4 months ago
RoleEval:大型语言模型的双语角色评估基准
该论文介绍了 RoleEval,一个旨在评估角色知识的记忆、利用和推理能力的双语基准测试,包括 RoleEval-Global 和 RoleEval-Chinese 这两个部分,旨在系统地探索角色的个人信息、关系、能力和经历的基础知识和多跳
→
PDF
6 months ago
Prev
Next