BriefGPT.xyz
Ask
alpha
关键词
evaluating efficacy
搜索结果 - 2
MLLM-Bench,使用 GPT-4V 评估多模式 LLMs
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性
→
PDF
7 months ago
核司问答:核领域语言模型的人工基准测试
这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA,它由专家设计的 100 个问题组成,针对语言模型的能力进行了测试。论文还提出了一种新的评估指标,发现现有的最优语言模型在该测试标准上的表现不尽人意,揭示了现
→
PDF
9 months ago
Prev
Next