evaluation protocol | BriefGPT

关键词evaluation protocol

搜索结果 - 59

一种用于真正零样本动作识别评估的新分割方法
该论文针对零样本行为识别中的现有问题，提出了 True Zero-Shot (TruZe) 数据集，其中训练集、测试集和预训练类别没有任何重叠，对零样本行为识别任务进行了评估，并发现在该任务中未见类别性能普遍较低，实验结果也暗示少样本行为识
PDF3 years ago
EMNLP挖掘神经机器翻译中的错误：从部分假设空间评估和理解模型错误
本研究提出了一种新的神经机器翻译 (NMT) 模型评估协议，该协议基于模型的排名能力定义模型错误，并提出了两种近似方法，以应对指数级的假设空间，并将其应用于各种 NMT 基准和模型架构，揭示了模型的排名问题，评估模型错误与搜索算法的相关性。
PDF3 years ago
MM新颖性手写识别
介绍了一种以代理为中心的方法处理手写识别中的新颖性，并描述了一个基线代理，提出了评估协议并进行了实验以推进该方法，结果表明代理为中心的方法是可行的。
PDF3 years ago
偏差缓解技术中的关键问题调查
本研究提出了一个改进的评估协议、合理的指标和一个新的数据集，以评估现有的 7 种最先进的减少偏差算法的有效性。研究发现，算法利用隐藏的偏见，无法适应多种偏向，而且对调整数据集的选择非常敏感。因此呼吁社区采用更严格的评估方法。
PDF3 years ago
跨文档指代消解的优化：评估和建模
本研究提出了实用的评估方法，对跨文档共指消解问题进行了基础性分析，构建了第一种端到端模型，并在该任务中取得了比现有技术更好的效果。
PDF4 years ago
CVPR弱监督物体定位的评价：协议、度量和数据集
本文提出一个新的评估协议，将完全监督仅限于一个小的保留数据集，观察了最近五种 WSOL 方法与 CAM 基线的比较并发现没有显著的改进，并提出未来 WSOL 的研究方向建议。
PDF4 years ago
走向统一的对话系统评估：对当前评估协议的全面分析
本文针对对话系统中的评估协议不统一的问题，综合研究了人工评估和自动评估方法，建议建立更加健壮和统一的评估协议，并对目前使用的自动、静态和交互式评估方法进行分析，最终通过与 Alexa Prize 2020 中的系统 - 用户对话数据进行比较
PDF4 years ago
面向图机器学习的数据集：Open Graph Benchmark
本研究介绍了 Open Graph Benchmark（OGB），它是一个包含多个重要图形机器学习任务的大规模数据集，为规模化、坚固性、再现性图形机器学习研究提供了有挑战的、真实的基准数据集，并提供一个统一的评估协议，其中包括有意义的特定于
PDF4 years ago
ACLoLMpics -- 关于语言模型预训练所捕获内容的研究
本研究提出了八项推理任务并设计了评估方案，发现不同的预训练语言模型在推理任务中表现出不同的能力。此外，还发现预训练模型的推理能力具有上下文限制。
PDF5 years ago
深度主动学习破除幻觉
该研究旨在评估目前基于最新学习方法下的图像分类的主动学习策略的有效性，并且在更实际的情况下验证了选择语义分割的方法，其提出了一种更合适的评估协议。
PDF5 years ago
ACL知识图谱补全方法的重新评估
本文旨在探讨在大型知识图谱中自动预测缺失链接的 KGC 技术，针对最近几篇高水平论文达到的高性能，提出了一个简单的评估协议来解决模型偏差的问题，并使用该协议对几种现有方法进行了广泛的实验，同时公开了可复现的代码。
PDF5 years ago
EMNLP执行定位协作交互中的指令
我们研究了一种协作场景，其中用户不仅指示系统完成任务，而且与系统一起行动。我们通过建立一个游戏环境来研究这个场景，并学习将用户的指令映射到系统的动作，以实现误差恢复和多目标指令的显式推理。我们通过新的评估协议和人类用户的交互和在线游戏进行评
PDF5 years ago
CVPR场景文本检测中的紧密性感知评估协议
本文提出了一种新的评估协议，称为紧密感知交集联合（TIoU）度量，旨在解决现有度量的一些明显缺陷，并提供了一种简单有效的解决方案来同时识别文本线和单词检测，并通过实验表明他们的方法更紧密、更有利于识别，代码公开在此 https URL。
PDF5 years ago
CVPR重新思考视频摘要的评估
本文主要研究视频摘要中的评估方法，并提出了基于视频分割的替代方法，在使用两个知名的基准数据集进行研究时，惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现，并且视频分割对性能指标的影响最大。
PDF5 years ago
基于视觉和文本环境生成实时视频评论的 LiveBot
介绍了一项自动实时评论的任务，并通过构建大规模实时评论数据集和引入基于视觉和文本上下文的两个神经模型，实现了比以前的模型更好的性能，最终展示了第一个 LiveBot。
PDF6 years ago
基于 CNN 的单张图片深度估计方法评估
本文提出了一组新的质量标准，允许更详细地分析深度图的特定特征，以便评估最先进的单图像深度估计方法，并提供了一个新的高质量 RGB-D 数据集。实验结果显示了我们提出的评估协议的有效性。
PDF6 years ago
来自生成网络的设计启发
本研究探讨了结合不同损失函数的图像生成模型在时尚生成中的创新性。通过设计一个评估协议，结合自动度量和人类实验研究，本研究发现，相对于 Creative Adversarial Networks 所采用的创新性评估标准，本研究所提出的创新性标
PDF6 years ago
基于转换的视频序列模型
本文提出了一种基于无监督方法的视频帧预测技术，相比直接预测未来帧中每个像素点，本文预测未来帧的变换过程，同时提出了一种新的评估协议，该方法在 UCF-101 数据集上进行了验证，在参数和计算成本上更加高效。
PDF7 years ago
在线动作检测
该研究针对在线动作检测问题，提出了一个基于现实数据的真实数据集，并通过分析多种基准方法以及评价协议，展示该问题具有挑战性，为后续在线动作检测研究提供了数据和模型。
PDF8 years ago