metrics | BriefGPT - AI 论文速递

关键词metrics

搜索结果 - 166

规则、自解释和领域不变的 GNN 的忠诚度的利弊
当我们对图神经网络的预测进行解释时，准确可信的解释是至关重要的。我们发现现有的指标在可信度方面并不可替代，但它们可能对解释的重要属性具有系统性不敏感性，针对这些问题提出了解决方案。对于一类特定的图神经网络结构，追求完全准确可信的解释是没有意
PDF8 days ago
IJCAI回归任务中公平度测量方法的一致性
通过对各种回归任务进行广泛实验，本文全面研究了各种公平性度量方法的输出一致性，结果发现某些方法在特定的回归任务中表现出较差的一致性，因此需要在回归领域中采用更加原则性的方法来度量公平性。
PDF10 days ago
PruningBench: 结构剪枝全面基准
结构修剪已成为生成更高效模型的一种有前景的方法。然而，由于缺乏标准化的基准和度量标准，该领域的进展尚不完全理解。为了填补这一空白，我们提出了第一个全面的基准测试，称为 PruningBench，用于结构修剪。PruningBench 具有以
PDF11 days ago
具备解释识别结果能力的人工智能架构
机器学习结果的可解释性需要建立信心；对权重进行解释的方法不足以用简单的术语解释决策；可解释的属性系统提供了术语解释，但表现不如不可解释的机器学习方法；本研究侧重于解释性指标的重要性，提出了两种能够提高性能的方法：第一种方法引入可解释性与不可
PDF16 days ago
WildBench：基于真实用户的挑战性任务对 LLMs 进行基准测试
WildBench 是一个自动评估框架，使用挑战性的真实用户查询来评估大型语言模型。它基于 1,024 个从超过一百万人机对话日志中精心选择的任务构建，并引入了两种具有可计算性的度量标准。通过使用任务特定的检查清单进行评估，并提供结构化解释
PDF22 days ago
贝叶斯因果探索评估中的挑战与考虑
在因果关系发现中，表示不确定性是实验设计的关键组成部分，而贝叶斯因果发现（BCD）提供了一种原则性的方法来包括这种不确定性。本研究通过剖析各种度量标准，并了解其局限性，通过广泛的实证评估，发现许多现有度量标准在与真实后验分布的逼近质量之间缺
PDF24 days ago
ADer: 综合多类视觉异常检测基准
通过提出一个综合的视觉异常检测基准 extbf {extit {ADer}}，包括多个数据集、多个方法和多个评估指标，本研究旨在客观揭示不同方法的优点和缺点，为多类视觉异常检测的挑战和未来方向提供见解，并促进更健壮、更具可推广性的异常检测系
PDF24 days ago
SIGIR大型语言模型作为推荐系统：流行偏见的研究
研究探讨了大语言模型在推荐系统中对流行度偏差的贡献和缓解的机会，并提出了一种新的测量流行度偏差的指标，通过对电影推荐任务的比较发现，即使没有明确的缓解方法，大语言模型推荐系统仍然表现出较少的流行度偏差。
PDFa month ago
深度回归的不确定性量化指标
在部署机器人或其他物理系统上的深度神经网络时，可靠地量化预测不确定性以允许下游模块对其行为的安全性进行推理至关重要。本文研究了评估这种不确定性的度量标准，具体关注回归任务，并调查了 Sparsification Error 下面积 (AUS
PDF2 months ago
大数据生态系统中提升数据质量的 AI 驱动框架：错误检测、修正和元数据集成
该研究论文提出了一套新的互联框架，旨在全面提升大数据质量，包括引入新的质量指标和加权评分系统，采用人工智能模型检测各种质量异常，以及通过预测建模纠正检测到的异常，并着重讨论了在大数据生态系统中提高元数据质量的创新框架。
PDF2 months ago
软标签 PU 学习
本文提出了一种软标签的 PU 学习方法，通过根据样本可能是正样本的概率为未标记数据分配软标签，并设计了相应的 PU 评估指标来评估其性能。实验证明了所提出方法在公共数据集和腾讯游戏的反作弊服务上的有效性。
PDF2 months ago
统一并扩展用于评估生成模型的精确度和召回率指标
通过实验分析，统一了对生成模型的评估方法，研究了各种度量标准，特别关注了精确度 - 召回率曲线，并揭示了其存在的问题。
PDF2 months ago
MM文本和音频简化：人类与 ChatGPT
我们通过比较人类和 ChatGPT 简化的文本，使用 14 个反映文本难度的指标，评估 ChatGPT 的简化性能，并找到简化的文本与人类简化文本之间存在较高的相似性。医学领域的专家评估显示出对 ChatGPT 风格的偏好，但文本内容的保留
PDF2 months ago
手写文件中信息提取的读取顺序无关度量
手写文件中的信息提取过程往往依赖于获得自动转录并对该转录执行命名实体识别（NER）；出于这个原因，在公开可用的数据集中，系统的性能通常使用适用于每个数据集的特定指标进行评估。而且，大多数使用的指标对阅读顺序错误非常敏感，因此不能反映系统的预
PDF2 months ago
ACL分类评估指标的深入研究及对常见评估实践的批判性反思
分类系统在无数篇论文中进行评估。然而，我们发现评估实践通常是模糊的。经常情况下，指标选择是没有依据的，模糊的术语容易引起误解。本文从偏倚和普遍性的直观概念出发，对常用的评估指标进行分析，考虑到论文中所表达的期望。通过对度量选择的全面理解，我
PDF2 months ago
IJCAI基于复杂网络理论的深度神经网络：一种观点
通过复杂网络理论和统计物理结合，此研究工作扩展了现有的复杂网络度量指标，从纯拓扑分析转变为与深度学习可解释性相关的分析方法，提供了探究深度神经网络的物理根源，超越传统的输入 - 输出关系和复杂网络拓扑分析。
PDF2 months ago
MAD Speech：语音声音多样性的度量
发展了一种声学多样性的轻量级度量标准集，通过专门的嵌入模型和一个聚合函数来衡量声学多样性，在多个真实评估场景中展示了其适用性。
PDF2 months ago
场景图生成指标的综述与高效实现
本文提供了对场景图生成模型常用评价指标的细致定义和全面回顾，并介绍了一个名为 SGBench 的独立 Python 包，该包高效实现了所有定义的评价指标，以确保研究社区的可访问性，并展示了一个场景图基准测试网络服务，使研究人员能够比较场景图
PDF2 months ago
揭示以度量为重点的 LLM 评估：挑战与解决方案
NLP 中，大型语言模型（LLMs）的成功推动了其显著突破，本文对 LLM 的评估方法进行了全面探索，提供了选择和解读已使用度量标准的见解，并采用最新的生物医学 LLM 进行了这些度量标准的应用比较，旨在为研究人员提供一个实用的指南，推进对
PDF2 months ago
$F_β$ 绘图 -- 用于评估不平衡数据分类器的可视化工具
针对不平衡数据分类问题，本文提出了一种分析广泛使用的参数化度量 $F_eta$ 的简单方法，以便根据用户需求确定何时选择特定模型。
PDF3 months ago