BriefGPT.xyz
大模型
Ask
alpha
关键词
llm benchmarks
搜索结果 - 2
西班牙语和 LLM 基准:MMLU 是否被翻译迷失?
评估大型语言模型在其他语言中表现的质量,并修正翻译错误以及适应目标语言的测试项是改进非英语语言基准测试的关键。
PDF
a month ago
生成人工智能时代下的大型语言模型评估标准的不足
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛
→
PDF
5 months ago
Prev
Next