evaluation protocol | BriefGPT

关键词evaluation protocol

搜索结果 - 59

时间序列的早期分类：分类体系和基准
提供了一个早期分类的时间序列问题的评价方法，并通过一系列实验评估了九种现有算法的性能，同时还介绍了一个包含大多数现有算法的开源库。
PDF6 days ago
DF40：迈向下一代深度伪造检测
我们提出了一个全新的综合基准来革新当前的深度伪造检测领域，主要是通过研究训练数据集和测试数据集对现实世界中存在的各种真实多样的深度伪造进行综合评估。
PDF13 days ago
FakeInversion: 通过反转稳定扩散学习检测从未见过的文本图像模型生成的图像
由于 GenAI 系统滥用的潜力很高，检测合成图像的任务最近备受研究界的关注。本文提出一种利用反转开源预训练的稳定扩散模型获取的特征的新型合成图像检测器。我们展示这些反转特征使得我们的检测器能够很好地泛化到高视觉保真度的未知生成器上（例如，
PDF20 days ago
Bench2Drive：闭环端到端自主驾驶的多能力基准测试
自动驾驶技术正逐渐进入一个转折点，在数据驱动的方式下，通过端到端自动驾驶 (E2E-AD) 可扩展性，已经出现了一个具备变革性潜力的时代。然而，现有的 E2E-AD 方法主要是通过开环日志重放方式进行评估，使用 L2 误差和碰撞率作为度量标
PDFa month ago
关于公平表示学习的回归走向
通过重新关注性能在传输任务上的公平代表学习方法的评估协议，我们重新评估了现有的方法，并突出了对于公平代表学习方法来说，与任务无关的学习信号的重要性。
PDFa month ago
CAC 的烹饪秘笈：基于马赛克的广义损失用于改进无类别计数
在现有的无类别计数 (CAC) 框架中，我们指出了一个严重的问题：在多类别环境下，模型不考虑参考图像，而是盲目匹配查询图像中的所有主要对象。此外，现有的评估指标和数据集不能真实地评估模型的泛化性能和鲁棒性。为了解决这个问题，我们发现将马赛克
PDF3 months ago
基于系统和用户角度的对话推荐系统评估协议
当前的对话推荐系统 (CRS) 在现实场景中的用户体验遭受批评，尽管在学术界取得了显著进展。存在着针对 CRS 的评估协议可能偏重系统中心因素，如对话的效果和流畅性，而忽视了用户中心的方面。因此，我们提出了一个新的全面的评估协议 Conce
PDF3 months ago
连续学习中的超参数：现实检验
连续学习算法的评估方法不仅不切实际，而且不能有效地评估算法的连续学习能力，通过基于提议的协议在类增量学习方案上的实验，我们不仅观察到现有评估方法未能适当评估各个算法的连续学习能力，还观察到一些最近提出的报告表现优越的先进算法实际上与以前的算
PDF4 months ago
仿佛是场景流！
现有的场景流方法普遍无法描述小物体的运动，而当前的场景流评估协议通过对许多点进行平均处理来隐藏这种失败，我们提出了一种新的评估协议，Bucket Normalized EPE，它是类感知的且速度标准化的，可以在移动速度迥异的不同对象类型之间
PDF4 months ago
走向可信的重新排名：一种简单且有效的弃权机制
神经信息检索 (NIR) 通过启发式的信息检索系统显著改进，但是仍然存在频繁的失败，通常所使用的模型无法检索与用户查询相关的文档。我们通过提出一个轻量级的针对现实约束的弃权机制，特别强调重新排名阶段，以解决这个挑战。我们在黑盒场景下介绍了一
PDF4 months ago
VATr++：为手写文本生成明智选择您的字词
研究了手写体文本生成的影响因素，提出了输入准备和训练规范化策略，以获得更好的性能和更好的泛化能力，并提出了手写体文本生成的评估协议的标准化和全面的对比分析，推动该领域的进展。
PDF5 months ago
指代表达生成的内在任务评估
提出了一种基于内在任务的评估协议，针对对话生成模型中的表述生成模型进行了综合性评估，发现新的评估协议能更准确和可靠地评估每个模型的性能。
PDF5 months ago
ODIN: 异构奖励减轻 RLHF 中的黑客攻击
通过建立评估协议和使用共享特征表示的两个线性头部，训练模型以预测奖励，一个与长度相关，另一个与长度无关，从而更关注实际内容，以减少奖励与长度的相关性并显著提高策略的性能。
PDF5 months ago
AnyTool：自省式、分层代理大规模 API 调用
AnyTool 是一个大型语言模型代理，利用 Rapid API 的 16000 多个 API 解决用户查询，并通过 GPT-4 的函数调用功能来驱动，对比专为工具使用而设计的 ToolLLM 和 GPT-4 变种，AnyTool 在各种数
PDF5 months ago
WebVoyager: 使用大型多模态模型构建端到端网络代理
我们介绍了 WebVoyager，这是一种创新的大型多模态模型（LMM）驱动的网络代理，可以通过与真实网站的交互来完成用户指令的端到端。此外，我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用了 GPT-4V
PDF5 months ago
开放式识别中未知类别领域识别模型评估：一个提案
开放环境识别（OWR）是一个新兴领域，使得机器学习模型能够拒绝未知样本，并进行管理，逐步将新样本添加到基础知识。本研究提出了一个评估协议，用于估计模型在内域未知类和外域未知类之间分离能力，通过传统迁移学习、自动化机器学习（AutoML）和最
PDF7 months ago
基于新颖类别发现和基础模型的三维语义分割
这篇论文介绍了点云数据的一种新任务 NCD 的语义分割方法，通过在线聚类、不确定性估计和语义蒸馏提出了一种新的 NCD 方法，并提出了一种新的评估协议来严格评估其在点云语义分割中的性能，通过在多个数据集上进行全面评估，证明了该方法相对于其他
PDF7 months ago
稳定的暴露扩散：从提示到图像的性别偏见
该研究通过引入一个评估协议，旨在自动分析性别指示对稳定扩散图像的影响，从而为生成模型中的偏见和性别失衡问题做出贡献。研究发现性别指示不仅影响性别呈现，还影响生成图像中的物体和布局的表现，揭示出稳定扩散中微妙的性别偏见。
PDF7 months ago
散列标记：高风险 AI 评估的隐私保护基准
通过哈希标记协议，在不泄露正确答案的情况下，评估语言模型的能力，并对传统和生成模型的攻击进行了评估。
PDF7 months ago
走向无监督表示学习：学习、评估和传递视觉表示
无监督表示学习、卷积自组织神经网络、评估协议、表示传输、图像到图像转换
PDF7 months ago