evaluation tool | BriefGPT - AI 论文速递

关键词evaluation tool

搜索结果 - 5

一致性至关重要：从黑盒角度探索 LLMs 的一致性
我们通过构建 LLM 一致性任务数据集和设计多个基准模型，使用传统的自然语言生成度量标准（即 ROUGE，BLEU，METEOR）作为模型训练所需的特征，在主要实验中超越了人工评估、GPT3.5 以及其他模型，取得了最佳性能，最终利用最佳表
PDF4 months ago
感知测试：多模式视频模型的诊断基准
本研究提出了一种新颖的多模式视频基准 ——“感知测试”，以评估预训练的多模态模型（如 Flamingo、BEiT-3 或 GPT-4）的感知和推理能力，并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、
PDFa year ago
ECCVAB3DMOT：3D 多目标跟踪的基准和新的评估指标
本研究提出了一种简单实时的 3D 多目标跟踪系统，使用 3D Kalman 过滤器和匈牙利算法实现状态估计和数据关联，并提出了一种新的 3D MOT 评估工具以及三种新的评估指标。该方法在 KITTI 上表现出强大的 3D MOT 性能，并
PDF4 years ago
3D 多目标跟踪：基线和新的评估指标
该论文提出了一个简单实时的 3D 多目标跟踪系统，使用 3D Kalman 滤波器和匈牙利算法进行状态估计和数据关联，并提出了新的 3D MOT 评估工具和新的评估指标，可在 KITTI 和 nuScenes 数据集上获得最先进的性能和最快
PDF5 years ago
GRATIS: 生成多样化可控时间序列特征
使用混合自回归模型生成具有多样性和可控特性的时间序列，命名为 GRATIS，该方法可以用作时间序列预测和分类等任务的评估工具。
PDF5 years ago