evaluation benchmark | BriefGPT

关键词evaluation benchmark

搜索结果 - 58

BioKGBench：生物医学科学 AI 代理的知识图检测基准
在追求生物医学科学人工智能领域中，一种常见方法是构建由大型语言模型驱动的副驾驶代理，然而如何从 AI 科学家的角度精确评估这些代理系统目前尚未被充分探索。我们通过模仿科学家最重要的能力之一，即理解文献，提出了一种新的评估基准 BioKGBe
PDF5 days ago
MALSIGHT：迭代二进制恶意软件摘要分析研究
用于二进制恶意软件总结的 MALSIGHT 框架使用大型语言模型生成恶意软件的描述，通过迭代输入伪代码函数到 MalT5 模型来获得总结，同时引入了新的评估指标 BLEURT-sum。
PDF8 days ago
SHIELD：LLM 文本生成中版权合规的评估与防御策略
当前大型语言模型存在版权侵权问题，相关挑战包括版权合规评估、鲁棒性防御以及生成版权文本的有效防御机制。本文介绍了一个数据集用于评估方法、测试攻击策略，并提出了轻量级、实时的防御机制以确保大型语言模型的安全合法使用。实验证明，当前大型语言模型
PDF16 days ago
IPEval: 一种用于大规模语言模型的双语知识产权代理咨询评估基准
鉴于在知识产权领域中大型语言模型（LLMs）的快速发展，缺乏一种特定的评估基准来评估其理解、应用和推理能力，我们引入了 IPEval，这是第一个为知识产权机构和咨询任务量身定制的评估基准。IPEval 包括 2657 个多项选择题，涵盖了知
PDF16 days ago
VideoVista: 视频理解和推理的通用基准测试
通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista，本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题，强调了 Vid
PDF17 days ago
什么是最好的模型？用于大型语言模型的应用驱动评估
通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。
PDF20 days ago
通用到医疗应用的大型语言模型调查：数据集、方法论和评估
大型语言模型（LLMs）在各种自然语言处理任务中表现出令人惊讶的性能。最近，结合领域特定知识的医学 LLMs 在医疗咨询和诊断方面展现出卓越能力。本文系统地探讨了如何基于通用 LLMs 训练医学 LLMs，并提供了指导各种医学应用的 LLM
PDF20 days ago
MM常识 T2I 挑战：文本到图像生成模型能否理解常识？
我们提出了一个新的任务和基准，用于评估文本到图像生成模型在现实生活中产生符合常识的图像的能力，我们将其称为常识 - T2I。给定两个对抗性的文本提示，其中包含一组相同的动作词但存在细微差异，例如 “没有电的灯泡” 与 “有电的灯泡”，我们评
PDF23 days ago
ICLRLean4 中自动形式化的评估基准
大型语言模型 (LLMs) 具有彻底改变自动形式化的潜力。引入数学编程语言 Lean4 为评估 LLMs 的自动形式化能力提供了前所未有的机会。本文介绍了一种专为 Lean4 设计的新型评估基准，将其应用于测试包括 GPT-3.5、GPT-
PDFa month ago
生成预训练大语言模型对孟加拉语语法错误的解释程度如何？
使用生成式预训练模型评估孟加拉语语法错误纠正系统，并强调了提供错误解释和改进反馈质量的重要性。
PDFa month ago
遥感图像的组合检索
本文介绍了一种应用于遥感的组合图像检索方法，该方法允许通过图像示例和文本描述在大型图像库中进行查询，丰富了对单模态查询（无论是视觉还是文本）的描述能力。我们介绍了一种融合了图像 - 图像和文本 - 图像相似度的新方法，证明了视觉 - 语言模
PDFa month ago
ACLFREB-TQA：用于表格问答的细粒度鲁棒性评估基准
通过对韧性 TQA 系统的细致评估，本文确定了三个重要指标：无视表格结构的改变回答问题、基于相关单元格的内容而非偏见回答问题、具备鲁棒的数值推理能力。实验证明，目前研究中没有哪种先进的 TQA 系统能在这三个方面表现出色。我们发布了一份全新
PDF2 months ago
GPT-4V 挑战红队测试：是否能抵御 Uni/Multi-Modal 越狱攻击？
通过建立全面的 1445 个有害问题的评估数据集，本研究对 11 个不同的大型语言模型和多模式大型语言模型进行了广泛的试验，发现 GPT-4 和 GPT-4V 相对于开源的大型语言模型和多模式大型语言模型表现出更好的恶意入侵攻击耐受性，而
PDF3 months ago
COLING最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究
我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca
PDF4 months ago
DiaHalu: 大型自然语言模型的对话级幻觉评估基准
这项研究提出 DiaHalu，这是我们所知的第一个基于对话级别的幻觉评估基准。我们整合了收集的主题，促进了两个 ChatGPT3.5 之间的对话，并对不符合人类语言约定的内容进行手动修改，然后再由语言模型重新生成，模拟真实的人机互动场景。D
PDF4 months ago
大型视觉语言模型的图像推理与描述的认知评估基准
通过使用具有丰富语义的图像，我们提出了一种新的评估基准，评估大规模视觉语言模型（LVLMs）的高级认知能力。该基准定义了八种推理能力，并包括图像描述任务和视觉问答任务。我们对知名的 LVLMs 进行评估发现，LVLMs 与人类之间的认知能力
PDF4 months ago
科学摘要评估的反思：在面向因素的基准上建立可解释指标
本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科
PDF4 months ago
BiMediX: 双语医学专家混合模型 LLM
通过介绍 BiMediX，本文提出了第一个无缝交互的双语医学专家 LLM，旨在促进英语和阿拉伯语的医疗交流，并通过半自动的英语到阿拉伯语翻译流程和人工修订，提供高质量的翻译以及对阿拉伯医疗 LLM 的综合评估基准。
PDF4 months ago
FinBen: 大型语言模型的全面金融基准
通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。
PDF4 months ago
TofuEval: 评估 LLL 在主题焦点对话摘要的虚幻现象
单个文档新闻摘要在保真度方面取得了显著进展，但我们提出一种新的评估基准，研究在以话题为焦点的对话摘要领域中存在的事实一致性问题和虚构错误类型。
PDF4 months ago