comprehensive benchmark | BriefGPT

关键词comprehensive benchmark

搜索结果 - 12

文本空间图基础模型：全面的基准测试和新洞察
建立一个可以在不同图和任务中很好工作的图基础模型（GFM），通过统一的骨干结构近期引起了广泛关注。尽管文本空间的 GFM 存在巨大潜力，但目前的研究面临两个问题：缺乏统一问题设置的综合基准，以及缺乏足够的数据集来全面探索方法的潜力。为了解决
PDF19 days ago
DefAn: LLMs 幻觉评估的确定性答案数据集
这篇论文介绍了一份包含超过 75,000 个提示的详尽基准数据集，用于评估大型语言模型（LLMs）的性能，揭示了虚构产生率、提示错位产生率和一致性等方面的实验结果，并证明了数据集的有效性和作为 LLMs 性能评估综合基准的重要性。
PDF21 days ago
评估语音、音乐和声学事件的表示方法
我们提出了一个综合的基准评估系统，用于评估各种音频表示学习方法在各种不同的音频分类领域上的能力，并发布了针对非语音音频的新预训练模型，以解决目前缺乏开源非语音音频预训练模型的问题。
PDF2 months ago
朝着外部分布检测的现实基准
深度神经网络在各种技术和服务中得到越来越广泛的应用，但其容易受到来自训练集不同分布的样本的干扰，而常见的解决方法是使深度神经网络具备检测这种样本的能力。本文提出了一种基于 ImageNet 和 Places365 的全面评估标准，根据与训练
PDF3 months ago
并非所有语境平等：教授 LLMs 信任感感知生成
本研究提出了一个通用的 CAG 框架，旨在减轻 RAG 模型中引入的错误信息对生成结果的影响。通过创新的数据转换框架生成基于可靠性的数据，使模型具备辨别和处理信息可靠性的能力。实验证明，该模型在生成中能够有效理解和利用可靠性，显著优于其他带
PDF3 months ago
CausalBench: 大型语言模型因果学习能力的综合评估
本研究提出了一个全面的基准测试系统 CausalBench，旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务，并结合不同难度的任务场景，该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 C
PDF3 months ago
数据有效学习：一项综合医学基准
我们的研究论文针对数据有效学习在医学领域的研究空白，引入了一种全面的基准，用于评估医学领域中的数据有效学习。该基准包括来自 31 个医疗中心的数百万数据样本的数据集（DataDEL），用于对比的基线方法（MedDEL），以及客观衡量数据有效
PDF5 months ago
AgentBoard: 多轮 LLM 代理人的分析评估板
为了评估大型语言模型的能力并加快其实际应用，我们引入了 AgentBoard，一个综合性的基准测试评估框架，它不仅提供了对模型能力的深入理解，还促进了其性能的可解释性。
PDF5 months ago
SEED-Bench-2：多模态大型语言模型基准测试
我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。
PDF7 months ago
RenderMe-360: 高保真头像数字素材库及基准测试
本文提出了 RenderMe-360 数据集，这是一个包含了头像高度完整 4D 数据的大规模数字库。数据集包含了 243 + 万个完整的头框架和来自 500 个不同身份的超过 800k 个视频序列，是一个高保真度和高多样性的数据库，提供了丰
PDFa year ago
EMNLPMetaLogic：带有细粒度结构的逻辑推理解释
本研究提出了一个综合性基准来研究模型在复杂的现实场景中的逻辑推理能力。我们设计了细粒度的逻辑推理解释形式，并在实验中评估了当前最佳模型在这种新的解释形式上的表现，结果表明即使在巨型模型的帮助下，生成推理图仍然是一个具有挑战性的任务。
PDF2 years ago
OpenOOD: 广义越界检测基准测试
本文提出了一个名为 OpenOOD 的统一的、结构化的代码库，该库实现了超过 30 种 ODD 检测方法，并在最近提出的一般化 OOD 检测框架下提供了全面的基准。作者通过对这些方法的全面比较发现，过去几年中，该领域取得了显著进展，其中预处
PDF2 years ago