BriefGPT.xyz
Ask
alpha
关键词
ollabench
搜索结果 - 1
Ollabench: 评估 LLMs 在人类中心互相依赖的网络安全方面的推理能力
通过 OllaBench 评估框架,综合考虑人类因素和认知计算能力,评估了 21 种大型语言模型在情景信息安全合规和不合规问题中的准确性、浪费程度和一致性,结果显示商业模型的整体准确性最高,但仍有改进的空间,小型开放权重模型表现不逊,模型间
→
PDF
25 days ago
Prev
Next