BriefGPT.xyz
Ask
alpha
关键词
evaluation tool
搜索结果 - 5
一致性至关重要:从黑盒角度探索 LLMs 的一致性
我们通过构建 LLM 一致性任务数据集和设计多个基准模型,使用传统的自然语言生成度量标准(即 ROUGE,BLEU,METEOR)作为模型训练所需的特征,在主要实验中超越了人工评估、GPT3.5 以及其他模型,取得了最佳性能,最终利用最佳表
→
PDF
4 months ago
感知测试:多模式视频模型的诊断基准
本研究提出了一种新颖的多模式视频基准 ——“感知测试”,以评估预训练的多模态模型(如 Flamingo、BEiT-3 或 GPT-4)的感知和推理能力,并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、
→
PDF
a year ago
ECCV
AB3DMOT:3D 多目标跟踪的基准和新的评估指标
本研究提出了一种简单实时的 3D 多目标跟踪系统,使用 3D Kalman 过滤器和匈牙利算法实现状态估计和数据关联,并提出了一种新的 3D MOT 评估工具以及三种新的评估指标。该方法在 KITTI 上表现出强大的 3D MOT 性能,并
→
PDF
4 years ago
3D 多目标跟踪:基线和新的评估指标
该论文提出了一个简单实时的 3D 多目标跟踪系统,使用 3D Kalman 滤波器和匈牙利算法进行状态估计和数据关联,并提出了新的 3D MOT 评估工具和新的评估指标,可在 KITTI 和 nuScenes 数据集上获得最先进的性能和最快
→
PDF
5 years ago
GRATIS: 生成多样化可控时间序列特征
使用混合自回归模型生成具有多样性和可控特性的时间序列,命名为 GRATIS,该方法可以用作时间序列预测和分类等任务的评估工具。
PDF
5 years ago
Prev
Next