comprehensive evaluation | BriefGPT

关键词comprehensive evaluation

搜索结果 - 13

大型语言模型在学生论文评价中的应用
本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相
PDFa month ago
朝着真实的少样本关系抽取：新元数据集与评估
我们引入了一个元数据集，其中包括两个从现有的监督关系抽取数据集 NYT29 和 WIKIDATA（以及 TACRED 的 few-shot 形式）中派生的数据集。我们对六种最近的 few-shot 关系抽取方法进行了全面评估，观察到没有一种
PDF3 months ago
COLINGLHMKE：用于中文大语言模型的大规模综合多学科知识评估基准
LHMKE 是一种大规模、全面和多学科知识评估基准，旨在为中文大型语言模型的知识获取能力提供全面评估。它包括 10,465 个问题，涵盖 30 个学科的 75 个任务，既包含客观题又包含主观题，以更全面评估大型语言模型的知识水平。我们对 1
PDF3 months ago
ICLR剖析样本难度：对数据中心人工智能硬度表征方法的细粒度分析
通过提出细粒度的困难类型分类和硬度分类分析工具包 (H-CAT)，全面定量评估了 13 种不同的困难特征方法在 8 种困难类型上的强弱点，同时揭示了对困难特征方法选择和未来发展的实用建议。
PDF4 months ago
基于 z 归一化和 NP-Free 的 k-means 时间序列聚类评估
该论文对 k-means 时间序列聚类进行了全面评估，重点研究了两种不同的标准化技术：z - 标准化和 NP-Free，并通过实验使用轮廓分数评估了它们对聚类质量的影响，填补了这方面研究的空白，为时间序列聚类的发展提供了有价值的见解。
PDF5 months ago
在线视觉问答中 GPT-4V 和 Gemini 的评估
我们评估了 GPT-4V 和 Gemini 这两种最先进的大型多模态模型，并利用 VQAonline 数据集进行了综合评估。通过生成关于约 2000 个视觉问题的七种元数据，我们分析了 GPT-4V 和 Gemini 的零样本性能，并确定了
PDF7 months ago
评估 ChatGPT 在自动代码生成中的优势和局限性
ChatGPT 是一种显著的大型语言模型，通过与人类程序员进行比较，本文提出了对其代码生成能力的综合评估。通过构建一个包含 5 个类别的新颖数据集，共计 131 个代码生成提示，ChatGPT 和人类程序员生成了 262 个代码样例。使用
PDF8 months ago
揭开未出生婴儿的面纱：通过机器学习推进胎儿健康分类
采用机器学习方法和综合评估的方法，该研究提出了一种新的胎儿健康分类模型，以胎儿心率、子宫收缩和孕妇血压等多种特征为综合评估指标，实现了更客观和准确的胎儿健康评估。这一研究在产科领域有重大影响，为早期检测和干预胎儿健康问题奠定了基础，预期将为
PDF9 months ago
L2CEval: 评估大型语言模型的语言到代码生成能力
最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在
PDF9 months ago
SafetyBench: 用多项选择题评估大型语言模型的安全性
以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当
PDF10 months ago
C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型
通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。
PDFa year ago
通过多精度评估高效搜索全面强鲁棒性神经结构
通过多重鲁棒性评估的权值共享 NAS 方法，提出了一种高效的多层次鲁棒神经结构搜索方法，可以在多种攻击类型下搜索到具有高鲁棒性的神经结构。
PDFa year ago
WWWGraphGen: 一种可伸缩的、与领域无关的带标签图形生成方法
本文介绍了一种名为 GraphGen 的领域无关技术，它使用 DFS 代码将图形转换成序列，并利用一种新颖的 LSTM 架构学习图形和语义标签之间的复杂联合分布，从而克服了许多现有技术的局限性，该技术在多个性能指标方面表现优异。
PDF4 years ago