benchmarking framework | BriefGPT

关键词benchmarking framework

搜索结果 - 20

通过辩论评估大型语言模型的性能
基于辩论的自动化基准评估框架可有效评估和比较大型语言模型（LLMs）的性能，同时消除了依赖人类群体的昂贵需求。
PDF18 days ago
语言模型委员会：以共识的方式对高度主观任务进行基准测试基础模型
通过民主过程提出了一种新的基准框架 —— 语言模型委员会（LMC），用于在高度主观的任务中对大型语言模型进行排名，通过平等参与来制定测试集，通过集体评估响应来产生更可分离、强健且较少偏差的排名。
PDF22 days ago
医学图像分割中故障检测方法的比较基准：揭示置信度聚合的作用
本文介绍了一个用于评估医学图像分割中失败检测方法的综合基准框架，通过分析我们确定了当前失败检测度量的优点和局限性，并推崇风险覆盖分析作为一种整体评估方法，通过在包含五个公开的三维医学图像集合的综合数据集上评估各种失败检测策略的有效性，我们发
PDFa month ago
超几何基准测试揭示了图神经网络性能与网络拓扑特征的关系
我们介绍了一个用于图机器学习的全面基准测试框架，关注 GNN 在各种网络结构上的性能，结果强调了模型性能依赖于网络结构和节点特征之间的相互作用，并为模型选择提供了见解。
PDFa month ago
UnsafeBench: 对真实世界和 AI 生成图像的图像安全分类器进行基准测试
UnsafeBench 是一个评估图像安全分类器的有效性和鲁棒性的基准框架；通过评估五种常用的图像安全分类器和三种通用视觉语言模型驱动的分类器，发现现有的图像安全分类器在应对不安全图像的多方面问题上不够全面和有效，并且当适用于 AI 生成的
PDF2 months ago
SIDBench：用于可靠评估合成图像检测方法的 Python 框架
该研究论文介绍了一个基准测试框架，通过集成多个最先进的合成图片检测模型，旨在解决合成图片检测方法在实际应用中与基准数据集之间的差距，并研究在线共享素材中的图像变换对检测性能的影响。
PDF2 months ago
AMPCliff: 抗微生物肽中活性断崖的定量定义和基准评估
在这项研究中，我们介绍了一种用于定量化定义和评估抗菌肽中的活性悬崖现象的基准框架 (AMPCliff)，并发现机器学习模型在检测活性悬崖事件方面具有良好性能。
PDF3 months ago
KANDY 基准：使用 Kandinsky 模式的增量式神经符号学习和推理
通过引入 KANDY 基准框架，本文介绍了一种可以生成多种受康丁斯基图案启发的学习和推理任务的基准框架，通过创建逐渐增加复杂性和稀疏监督的二分类任务课程，KANDY 可用于实现连续和半监督学习的基准测试，并特别关注符号组合性。通过提供基础真
PDF4 months ago
扩展计算能力不足以确保对抗性鲁棒性
通过推导「对抗鲁棒性的扩展规律」，本文旨在回答计算能力能在多大程度上推动对抗鲁棒性的进展，并发现了一些值得未来研究探索的方向，同时还提供了一个基于「timm」的基准测试框架供进一步的高效鲁棒深度学习分析。
PDF6 months ago
Dyport: 动态基于重要性的假设生成基准技术
该研究提出了一个新颖的 benchmarking 框架 Dyport，用于评估生物医学假设生成系统。利用经过筛选的数据集，在真实条件下测试这些系统，增强了我们评估的相关性。我们将筛选数据库中的知识整合到动态图中，并伴随着一种量化发现重要性的
PDF7 months ago
大规模可学习向量存储压缩的实验分析
我们对嵌入向量的压缩进行了全面的比较分析和实验评估，引入了一个新的分类法，并开发了一个模块化基准测试框架，评估了 14 种代表性方法，从而为不同内存预算下的使用情形推荐了最佳方法。此外，我们的研究还揭示了当前方法的局限性，并提出了未来研究的
PDF7 months ago
MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试
这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 L
PDF8 months ago
LLM4DV：使用大型语言模型生成硬件测试刺激
通过利用大型语言模型（LLM）的能力，本文提出了一种基于框架 LLM4DV 的创新性基准测试方法，该方法引入了与 LLM 互动产生测试刺激的提示模板，并提供了四种创新的提示改进来支持流水线执行，并进一步提高其性能。通过与传统的约束随机测试（
PDF9 months ago
评估编码器 - 解码器架构在双平面 X 射线到 3D 形状重建中的性能
深度学习模型在 2D-3D 骨形重建方面进行了比较，提出了一个评估框架，并发现基于注意力的方法在各种解剖学和数据集方面表现更好，注意到需要对临床相关参数进行细分报告，同时对肋骨的重建相对于股骨、髋部和脊柱更具挑战性，并不是所有情况下 Dic
PDF9 months ago
VerilogEval：用于 Verilog 代码生成的大型语言模型的评估
该论文提出了一种专门为评估大型语言模型在硬件设计和验证中的 Verilog 代码生成性能而设计的基准测试框架，演示了预训练语言模型的 Verilog 代码生成能力可以通过使用 LLM 生成的合成问题 - 代码对进行监督微调来提高。
PDF10 months ago
开发一个可扩展的基准测试，用于评估大型语言模型在知识图谱工程中的表现
大型语言模型在知识图谱工程方面的性能评估和监控是一个重要问题，我们引入了一个基于知识图谱工程的基准评测框架，涵盖了语法和纠错、事实抽取以及数据集生成三个挑战。通过实验证明，尽管具有一定的实用性，大型语言模型在零样本生成知识图谱方面尚不适用。
PDF10 months ago
使用语言模型作为审核器的基础模型基准测试
本文提出了一种新的基准测试框架，Language-Model-as-an-Examiner，其中 LM 作为一个知识丰富的考官，提出问题，并以无参考的方式评估答复，以便更全面和公平地评估模型。
PDFa year ago
合成电子病历生成模型的多方面基准测试
本文介绍了一种通用的基准测试框架，以评估生成对抗网络等方法合成的医疗数据的实用性和隐私度量，并发现在共享用于电子健康记录的合成数据时存在实用性和隐私度量的折中。
PDF2 years ago
ACLFedNLP: 自然语言处理联邦学习方法的基准测试
本研究提出 FedNLP 框架，用于比较研究隐私保护、分散式学习方法在自然语言处理任务中的表现，并分析不同分区策略下联邦学习方法与自然语言处理的关联，为未来的研究提供借鉴。
PDF3 years ago
COSET: 用于评估神经程序嵌入的基准测试
本文提出一种名为 COSET 的基准测试框架，用以标准化神经程序嵌入的评估，以及通过该框架进行的研究发现可以有效识别程序语法语义特征中的挑战点及神经网络模型在处理该类挑战点时的优缺点。
PDF5 years ago