- 交互式自然语言处理
该论文对 iNLP 的定义、分类、评估方法、应用和未来研究方向进行了综合性调查,旨在为研究人员提供广泛的视野和工具,以促进与人类、知识库、模型和环境的交互、交流和合作。
- 基于对话的意图识别:DSTC 11 面向任务导向对话任务的研究
本文提出一个针对客户服务交互的自动感知意图的基准测试,探讨了虚拟助手、bot 架构设计、意图识别、客户服务交互和评估方法方面的研究成果,并在挑战中收到了来自 34 个团队的提交和结果。
- 面向协作多智能体强化学习的标准化性能评估协议
本篇论文通过元分析探究了近年来多智能体强化学习中合作场景下的评价方法,并提出了一个标准化的性能评估协议以提高未来相关研究的可信度与可复现性。
- AAAIL2Explorer: 一种终身强化学习评估环境
介绍了一种基于 Lifelong Learning Explorer(L2Explorer)框架的连续 RL 开发和评估方法,其提供了一种开放世界环境下的未来评估方法的框架,并严格评估终身学习方法。
- ACL评估方法对代码摘要的影响
本文介绍了一种新的代码摘要研究社区的时间分段评估方法,并比较了常用的混合项目和跨项目方法,发现时间分段方法应该采用于机器学习模型的代码摘要评估中,研究表明不同方法导致出现相互冲突的评估结果并邀请社区扩展使用的评估方法。
- 文本风格转移:评论与实验评估
本文综合评述了最近文本风格迁移的研究进展,提出了一种按类别组织 TST 模型的分类法,并提供了一份最新技术的综合摘要。我们还检验了 19 种最先进的 TST 算法并提供当前趋势的新视角。
- 机器阅读理解可解释性调查
本文系统评述了机器阅读理解中可解释性的基准和方法,并介绍了该领域中表示和推理挑战的演变以及解决这些挑战所采取的步骤。同时,我们还提出了评估解释性系统性能的方法,并确定了存在的开放性研究问题和未来工作的关键方向。
- 推荐模型评估的数据分割策略探讨
本文研究评估推荐系统的有效方法学,发现数据划分策略是一个被忽视的因素,并比较了三种不同的划分方法对七种最先进的推荐系统在两个数据集上的影响。结果表明,所用的数据划分策略是一个重要的交叉变量,能够显著改变最先进系统的排名,使得很多当前已发表的 - 联合检测和分离歌声:一种多任务方法
本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法,并提出了对于每个数据集特定的问题偏差的解决方法,最终实验表明与单任务相比,该方法在分离和歌声检测方面均有较大改进。
- 比较单个性能得分并不能得出关于机器学习方法的结论
本文研究了模型性能评估方法的可靠性问题,并探讨了仅基于分割数据集评估模型性能的评估方法存在的缺陷。作者提出了基于分数分布的评估方法来代替传统评估方法。
- 重新审视街机学习环境:通用智能体的评估协议和开放问题
该文章探讨了 Arcade Learning Environment(ALE) 作为评估平台对研究社区的影响,并重点说明在该平台中评估代理时的一些核心问题。此外,该文章还提出了一些研究方法的最佳实践,并介绍了一个支持多种游戏模式的新版本 A - CVPR基于循环神经网络的人体动作预测
本文旨在研究人体运动建模领域的前沿研究,特别关注基于深度递归神经网络的研究成果,对当前问题的评价方法进行了调查,在研究现有的体系结构、代价函数和训练程序时,提出了三点标准改进措施,取得了最新技术的突破性进展。