- ACL对话生成的白盒多目标对抗攻击
通过提出一种名为 DGSlow 的白盒多目标攻击方法,该方法通过梯度优化来平衡生成精度与长度,并通过适应性搜索机制来逐步制作仅有几个修改的对抗样本,并将其用于四个基准数据集的全面实验,成功率比传统的以准确性为基础的方法更高,同时还展示了强大 - 人机交互中个性化情感计算调查
本文探讨了情感计算领域中个性化的必要性,并对 state-of-the-art 的方法进行了综述和分类,包括针对特定目标的模型、群组特定模型、加权方法、微调方法、多任务学习、生成模型和特征增强。此外,文章还对文献进行了统计分析,提供了路线图 - 物联网信任和声誉:调查和分类
通过综述当前 IoT 设备和系统信任度和信誉研究现状,针对 IoT 设备特性和环境,提出了一种新的基于传统信任管理和人工智能的分类学,比较分析了相关系统和方法的性能指标,并讨论了未来的研究方向和挑战。
- 重温使用 Gumbel-Softmax 的 MADDPG 算法
本文探讨了在离散动作空间的场景下,使用多种代替 Gumbel-Softmax 估计器的方法来扩展 MADDPG 算法,并对各种性能指标进行了测量和分析,结果表明,在几项任务中,其中一种提出的估计方法比原始的 Gumbel-Softmax 在 - 足球比赛事件分析的基于 Transformer 的神经标记时空点过程模型
本篇研究提出了基于神经时间点过程 (NTPP) 框架的基于 Transformer 的标记空间时间点过程 (NMSTPP) 模型,并提出了综合利用球权的度量方法(HPUS),其中,该模型在足球事件数据的预测表现优于基线模型,而 HPUS 得 - Civil Comments 数据集上有害评论分类的基准
比较多个模型在高度倾斜的多标签仇恨言论数据集上进行毒性评论检测,结果表明 BERT、RNN 和 XLNet 对关联身份的偏见较不敏感,RoBERTa 的 Focal Loss 表现最佳,而 DistilBERT 则结合了良好的 AUROC - 欺诈分析:十年研究 -- 领域中的挑战和解决方案
本文系统分析了 2011 年至 2020 年间近 300 篇有关欺诈分析的研究文献,总结了应用领域、面临的挑战、方法和绩效度量,并提出了未来研究的关键词策略和数据集要求。此外,本文提供了一个在线数据库,以帮助其他研究者进行进一步的研究。
- 文本对话中的深度情感识别:一项调查
介绍情感识别和相关挑战和机遇。然后描述了主要的情感分类法和应对主观性注释的方法。接着详细阐述了深度学习方法以及处理任务性能指标和不平衡 ERC 数据的方法。最后,对关键 ERC 工作进行了描述和基准测试,并比较了它们在不同数据集上的方法和性 - RMBench:机器人操作器控制深度强化学习基准测试
本文介绍了 RMBench,这是一个用于机器人操作的基准测试,使用深度学习和强化学习算法,通过使用目标性能指标来比较算法的性能表现,研究发现,软 Actor-Critic 的表现最好,且数据增强技术有助于学习策略。
- 利用强化学习进行前瞻性经济调度评估
本文提出了一种基于强化学习的先行经济调度方案的评估方法,通过采用操作场景来评估强化学习代理的性能表现,使用多种性能度量指标来评估其经济效益和安全性,并通过修改的 IEEE 30 总线系统进行仿真和对比实验,结果表明该方法适应不同环境的表现良 - 分类度量标准的分析与比较
该文讨论了机器学习领域最常见的分类系统性能指标,比较了它们与期望成本和 PSR 等其他指标之间的关系,并认为后者更为优秀和高效。
- Deepfake: 定义、性能指标和标准、数据集和基准,以及元回顾
本文综述了深度伪造技术 (deepfake) 的多个重要方面,包括不同的定义、常用的性能指标和标准以及深度伪造相关的数据集、挑战、竞赛和基准。与此同时,还对 2020 和 2021 年发表的 12 篇综述论文进行了元评论。本文是深度伪造领域 - 可解释图神经网络综述:分类和评估指标
本文全面梳理了针对可解释的图神经网络的技术,并基于这些技术对它们进行了分类,给出了衡量其性能的常见指标,最后指出了未来的研究方向。
- 使用全局敏感性分析方法评估进化算法超参数的排名和有效性
本文采用 Morris LHS、Morris 和 Sobol 三种灵敏度分析方法,系统分析协方差矩阵适应进化策略、差分进化、非支配排序遗传算法 III 和基于分解的多目标进化算法的可调超参数对性能指标的直接和相互作用影响,探究了超参数对采样 - 机器学习分类器偏见缓解方法的全面实证研究
该研究对机器学习分类器的 17 种生动代表性偏差缓解方法进行了综合性的实证研究,在 8 种广泛采用的软件决策任务中应用了 11 种 ML 性能度量(例如,准确性)、4 种公平度量以及 20 种公平 - 性能权衡评估。在分析过程中,作者发现, - 珠宝店会话式聊天机器人
本文研究了一种聊天机器人,旨在通过找到语料库中输入的相似模式来解决客户提出的问题,并使用音频输入接口以及性能度量来提高聊天机器人的性能。
- ICLR重新思考流式机器学习评估
探讨了流式机器学习问题的本质,阐述了延迟标签等实际挑战,建议采用新的性能度量标准来评估模型。
- ACL跨越和穿过:将填字游戏作为新的 NLP 基准引入
该研究提出将填字游戏作为新的自然语言理解任务,并公开发布了从纽约时报跨越 25 年的近九千个填字游戏的语料库规范,以及包含超过半百万个独特线索 - 答案对的开放域问答数据集,并探讨了多种处理方法及评价框架。
- 通过终身实验数据库 (LDE) 实现实验重现性和元学习
我们提出了一个长期实验数据库(LDE),可以自动提取和存储实验相关的元数据,并提供重新生成这些元数据的功能,还可以进行元学习。LDE 具有标准化的存储方式,利于查询和聚合数据,并提高元学习的性能表现。
- 元求解器方法的评估
本文概述了用于评估(元)求解器的不同性能度量标准,包括衡量元求解器表现和虚拟最佳表现的具体评估度量标准,并强调它们的优缺点。