- 生物医学图像字幕化调查
本文首次回顾讨论了医学图像字幕生成中的数据集、评估措施和现有技术,并提出了两种基准测试方法,其中强方法在一个数据集上的表现超出了所有现有技术系统。
- 自然语言处理任务推荐的统计显著性检验
该研究论文讨论了如何通过有效的统计显著性测试来证明自然语言处理 (NLP) 算法的优越性,并提出了针对该领域常见任务和评估指标的统计测试方法。
- 关于具身导航代理的评估
人工智能中探讨在三维环境下的熟练的移动操作是一个主要研究主题,为了协调指南与评估协议,本文介绍了实证方法的不同问题声明及概述,介绍了评估措施和提供了可用于基准测试的标准情境。
- ACL同声传译员表现的自动评估
提出了一种通过建立质量评估 (quality estimation) 方法来预测同声传译工作表现的任务,利用新颖的特征和方法达到了更好的预测准确性
- NIPSGAN 是否平等? 大规模研究
这篇论文通过对多个 GAN 算法的大规模实验研究得出,大多数模型在经过足够的超参数优化和随机重启后可以达到类似的分数,建议未来的 GAN 研究应该基于更系统和客观的评估程序,同时提出了一些可用于计算精度和召回率的数据集。
- Sarcasm SIGN: 基于情感的单语机器翻译解析讽刺
本文提出了讽刺解释的翻译任务,并介绍了一个包含 3000 个讽刺推文的数据集和一个基于机器翻译算法的讽刺解释算法:SIGN。该算法针对情感词等定义性元素,展示了让人比其他解释模型更高的充分性和情感极性分数。此外,本文还讨论了未来研究方向。
- 局部调整类比估计的 Pareto 有效多目标优化
本文主要研究基于类比的工作量估计方法中的决策变量对估计精度产生的影响,并利用粒子群优化算法进行多目标优化实现最佳决策。
- 蒙特卡罗研究的评估
通过理论分析和 Monte Carlo 模拟,对传统评估方法中存在的偏见进行了讨论,提出了一些不受偏见影响的替代评估方法,如 Cohen Kappa,并进行了实证评估。
- LSHTC: 大规模文本分类基准
本文描述了 LSHTC 系列所发布的数据集,包括数据集的构建和跟踪设计,评估方法及结果,这些数据集可在在线服务器上提交。
- 标签分布学习
本文提出了一种名为标签分布学习的新型学习范式,旨在解决标签重要性分布的问题。文章提出了六种工作 LDL 算法,并选择了六种代表性和多样化的评估措施,比较了这些算法的性能。实验结果表明,算法设计对 LDL 问题的特征非常重要,实现了性能上明显 - 地图构建算法的比较和评估
本文提出了一种基于车辆跟踪数据的综合比较七种地图构建算法的方法,并使用四种不同的数据集和四种不同的评估指标进行了评估和比较。
- 层次分类评估方法:统一视角和新方法
本文针对层次分类问题展开研究,分析和提取了现有性能度量的关键组成部分,提出了两种替代性通用层次评估视图和相应的新度量方法,并通过三个大型文本分类数据集的实证测试,表明所提出的方法在多种情况下能够克服现有方法的不良行为,并得到显著提高。