- 基于小波注意力 GRU 的高效工业气体识别及新颖度评估
为解决气体识别算法中标准化协议缺失的问题,本文提出了两组专门评估气体识别算法的测量指标,并提供了一种基于小波注意力机制的新模型 Wavelet Attention GRU(WAG),它能提高传感器信号的检测效率,减少 75% 所需的传感器数 - 概念最佳匹配:评估新兴沟通中的组合性
通过找出新出现的词和自然语言概念之间的最佳匹配,我们提出了一种评估新兴的通信的组成性的方法,这是第一次提供新出现词和人类概念之间直接可解释的映射。
- 评估掩码语言模型中的社会偏见的鲁棒评估度量
我们通过将伪对数似然(PLL)得分集表示为高斯分布,并使用 KL 散度和 JS 散度构建评估措施,以评估刻板化和反刻板化 PLL 得分的分布,发现我们提出的措施在公开可用的数据集 StereoSet(SS)和 CrowS-Pairs(CP) - AAAI简单的弱核心集对于不可分解分类测量
考虑监督分类问题和非可分解评估指标,研究基于分层均匀采样的 coresets 在实证性能与理论保证方面表现优秀,特别针对 F1 得分和 Matthews 相关系数这两个广泛使用且难以优化的非可分解目标函数,证明均匀 coresets 达到了 - 评估本地解释中的归咎问题及其解决方法
对于局部模型无关解释的评估方法,以鲁棒性、基于合成数据集和可解释模型的地面真实性评估、模型随机化和人为评估为分类,本研究提出了一种新的评估分类方法并指出除了基于可解释模型的地面真实性评估外,其他评估方法都存在 “责怪问题”。然而,即使是基于 - 医学影像配准的深度学习:介绍与调查
图像配准是一种将图像变形以使其与参考空间对齐的过程,以便医学从业者可以在标准化的参考框架中检查各种医学图像,如具有相同的旋转和比例。本文介绍了使用简单的数字示例进行图像配准的过程,并提供了图像配准的定义以及空间定向象征性表示。同时,探讨了不 - 对话式推荐系统中用户意图建模的理解:系统性文献综述
通过系统文献综述分析了用户意图建模相关的概念和常用模型,并提供了决策模型以辅助研究人员选择最合适的模型。研究分析了 59 个不同的模型,并鉴别出 74 个常用特征,为模型组合、选择趋势、质量问题、评估方法和常用数据集提供了有价值的见解,促进 - 用于分类性能评估的分层混淆矩阵
本研究提出一种分层混淆矩阵的新概念,可用于评估包括有向无环图、多路径标记和非强制叶节点预测在内的所有类型分层分类问题,并将其应用于三个真实世界的分层分类应用的模型结果评估,其结果表明这种方法的合理性和对分层分类问题的评估的实用性。
- RLocator: 强化学习用于缺陷定位
本文介绍了一种基于强化学习(RL)的 BUG 定位方法 RLocator,通过将 Bug 定位问题转化为马尔可夫决策过程(MDP),直接优化评估指标。经实验表明,该方法对 Apache 项目中的 8,316 条 Bug 报告解决方案的平均倒 - PRUDEX-Compass: 金融市场强化学习的系统化评估
介绍了一种 PRUDEX-Compass 方法,它具有 6 个轴,共 17 种衡量指标,可以系统地评估 8 种 FinRL 方法的投资决策在实际金融市场的表现,并公开发布这些资源以促进新 FinRL 方法的设计和比较。
- EMNLP度量度量工具:文本语料库语义度量自动评估
通过提出一系列的评估度量,本文对语义相似度度量的特征进行自动和可解释的评估,从而实现了对不同语义相似度度量方法行为的合理比较。通过对经典方法和最新方法的评估,我们的度量揭示了最近开发的度量在识别语义分布不匹配方面变得更好,而经典度量则对表面 - EMNLP摘要工作台:统一文本摘要模型的应用与评价
本文介绍 Summary Workbench,这是一个用于开发和评估文本摘要模型的新工具,它可以轻松集成基于 Docker 的插件,以便针对任何输入检查其摘要质量并使用各种评估指标进行评估。
- 英语、葡萄牙语和西班牙语的词汇简化基准
本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构,对两种高级系统进行了适应和评估,结果在英语中表现最佳。
- CVPRAxIoU:一种公理上证明的视频时刻检索度量
本文提出一种新的 VMR(Video Moment Retrieval)评价指标 -- Average Max IoU,该指标不再受制于旧评价方法 R@$K, heta$ 存在的问题,并满足了两个重要的 VMR 评价公理,即 “Redund - ACL通过可控特征提高基于知识的对话的准确性
研究知识基础对话系统,控制生成神经对话模型,加入不同的评估措施作为样式控制以鼓励模型生成有据可依的响应,并通过人类评估研究判断控制生成模型的产出通常更加客观和有据可依。
- 多标签分类方法的综合比较研究
这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究,发现 RFPCT,RFDTBR,ECCJ48,EBRJ48 和 AdaBoostMH 是效果最好的方法,希望今后引入新方法时,应 - 可以自动化科学审稿吗?
本文讨论如何运用自然语言处理技术,自动生成机器学习领域的论文评审。通过收集论文数据集和训练模型进行实验,研究发现自动生成的评审可以涵盖更多的内容,但在细节方面需要更高的准确性和构造性。最后,总结了这个领域的八个难题及其潜在解决方案。
- 具身对话代理人姿态生成评估实践综述
该研究对具有人类类似上半身的 ECA 在社交人 - 机互动中使用共同言语手势的生成方法进行了系统综述,并提出了评估工具和检查清单,以帮助在不同研究中系统地测试生成模型。
- 在信息检索评估中追求有意义的陈述:将评估指标映射到区间刻度
通过实验评估,我们发现对于信息检索中评价方法的大多数流行度量标准进行区间缩放可以显著影响结果的可靠性,使不显著差异变得显著,并导致决策结果发生了 25% 左右的变化。
- 评价:从精度、召回率和 F - 度量到 ROC、知情度、标记度和相关性
本研究讨论了常见的评估措施,指出它们存在偏差,需要清楚理解偏差并识别其机会或基线水平,提出了反映预测是否知情的概率的若干概念和测量方法,引入了 Markedness 作为一种相对应的概率的二元测度,展示了 Informedness,Mark