evaluation metrics | BriefGPT

关键词evaluation metrics

搜索结果 - 475

移动贝奇：一种用于基于 LLM 的移动代理的评估基准
通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设
PDF3 days ago
多语言环境下的检索增强生成
检验检索增强生成（RAG）在多语言环境下的性能，发现任务特定的提示工程和调整评估指标是必要的，同时解决非拉丁字母语言中经常发生的代码切换、流畅性错误、提供文档的错误阅读或无关的提取等问题。
PDF3 days ago
自动樱桃挑选者：从语言驱动的高质量生成数据中学习
通过使用扩增感知和多模态训练的高质量多模态训练样例，Auto Cherry-Picker（ACP）框架能够生成高质量的图像布局并改善现有模型性能，其中使用了扩散模型、语言模型、评价指标等关键技术。
PDF6 days ago
可扩展的领域通用抽象命题分段
将文本分成细粒度的含义单元对于广泛的自然语言处理应用非常重要，本文重点讨论了抽象命题分割的任务，并提出了评估指标和可扩展准确的命题分割模型，同时介绍了领域泛化方法，并分享了一个简单易用的 API。
PDF6 days ago
从零开始：自动知识图谱补全的三元组预测
本研究提出了一种新的图级自动知识图谱补全任务，称为三元组集合预测（TSP），该任务旨在预测给定一组已知三元组的一组缺失三元组。为了评估这一新任务，我们提出了 4 个评估指标，包括 3 个分类指标和 1 个排序指标，并考虑了部分开放世界和封闭
PDF8 days ago
X 射线简化：用通俗语言生成和评估放射学报告
通过引入一个以外行人术语为基础的数据集、评估和训练框架来系统地改进放射学报告生成 (RRG)，以解决现有用于评估 RRG 的词汇基准度量方法（如 BLEU）的问题，该方法的高性能可能只是一个幻觉。我们提出了一个基于语义的评估方法，并证明其可
PDF9 days ago
机器反学习无法消除数据投毒攻击
我们重新审视了用于大规模深度学习的几种近似机器遗忘方法的功效。虽然现有的遗忘方法在一些评估设置下表现出了有效性，但我们实验证明它们无法消除数据污染的影响，在各种类型的污染攻击和模型中都表现出失败的情况。我们引入了基于数据污染的遗忘评估指标，
PDF9 days ago
CausalScore: 用于评估开放领域对话系统中回复相关性的自动无参考度量
自动评估开放领域对话系统中回应的质量是一项具有挑战性但又至关重要的任务。我们提出了一种新颖的度量标准，称为 CausalScore，通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。我们的实验结果表明，CausalScore 在与
PDF9 days ago
EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型
本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细
PDF10 days ago
评估大型语言模型在故事结局生成中的指令遵循能力
通过自动评估流程，本文提出的评估度量与人工评估结果吻合，验证了最近的开源大型语言模型在按照指令生成结尾方面的性能接近于 GPT-3.5。
PDF10 days ago
AudioBench：一个音频大语言模型通用基准测试
通过提供相关数据集和评估指标，我们引入了 AudioBench，这是一个旨在评估语音大型语言模型（AudioLLMs）的新基准。我们在研究中评估了四个模型的能力，并发现没有单一模型在所有任务中都表现出色。我们概述了 AudioLLMs 的研
PDF11 days ago
为科学图像集分割死海古卷片段
本文介绍了一种用于从以色列古物管理局（IAA）策划的图像中分割手稿碎片的定制流水线，并通过隔离和解决每个困难的定制方法来解决标尺、颜色、号码栏以及黑色背景等难题。此外，我们创建了一个带有条形码检测和碎片分割真值信息的数据集，并在该数据集上定
PDF13 days ago
朝向稳健评估：大语言模型时代开放领域问答数据集和度量的综合分类
本研究通过对 52 个数据集和 20 种评估技术进行综述，详细研究了当前开放域问题回答领域的现状，提出了一种包含问题类型的多模态数据集新分类法，并对评估指标进行结构化整理和批判性分析，旨在为现代问答系统的强大评估提供框架，并指出了当前的挑战
PDF15 days ago
基于 LVLM 的图像描述中，更多的细节总是引入更多的幻觉吗？
我们提出了一种新的解码策略，名为差异化束搜索解码（DBD），以及一组可靠的评估指标：CLIP-Precision、CLIP-Recall 和 CLIP-F1，用于图像描述。我们的方法在 Visual Genome 数据集上进行了广泛实验证明
PDF16 days ago
ComperDial: 基于常识和角色的对话数据集与基准
我们提出了一个新的基准系统 ComperDial，用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应，除了单个对话转折的评分
PDF17 days ago
NovoBench: 基于深度学习的蛋白质组学中 De Novo 肽段测序方法的基准测试
本文介绍了第一个统一的鲁棒性肽段测序标准 NovoBench，该标准包括多样的质谱数据、整合模型和全面的评估指标，并通过对各种因素的评估，揭示了许多有启发性的发现，为未来的发展开辟了新的可能性。
PDF18 days ago
对话者合成的综合分类和分析：肖像生成、驱动机制和编辑的技术
头像合成的技术和应用进行了全面的调查和总结，涵盖了头像生成、驱动机制、编辑技术等方面，同时还提供了大量的数据集和绩效分析，以支持未来的研究和应用。
PDF19 days ago
ChartMimic: 通过图表生成代码评估 LMM 的跨模态推理能力
我们介绍了一个新的基准测试，ChartMimic，旨在评估大型多模态模型（LMMs）的视觉基础代码生成能力。ChartMimic 利用信息密集型的可视化图表和文本说明作为输入，要求 LMMs 生成相应的代码以进行图表渲染。ChartMimi
PDF20 days ago
降水预测的深度学习：从时间序列预测的角度看调查
近期基于深度学习的时序降水预测模型研究进展与性能评估综述
PDFa month ago
图像解释的分类评估指标：构建可靠的可解释性人工智能评估
计算机视觉模型的决策过程（尤其是深度神经网络）的不透明性意味着这些决策无法被人类理解。因此，在过去几年中，已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标，并对常见的显著性方法在 ImageNet 上进行了基准测试。此
PDFa month ago