evaluation methodology | BriefGPT

关键词evaluation methodology

搜索结果 - 36

学习在没有人类数据的情况下实现鲁棒的实时文化传播
该研究提供了一种为人工智能代理产生零样本、高召回文化传播的方法，并鉴别了一组简单的材料，以生成文化传播，并开发了一种严格评估文化传播的方法，为文化进化成为开发人工智能的算法铺平了道路。
PDF2 years ago
跨文档指代消解的现实评估原则
该研究指出跨文档指代消解的常见评估方法在假设情境方面过于宽松，导致结果夸大。为此，提出两种评估方法论原则，一是应该根据预测的提及而非黄金提及来评估模型，二是模型不应利用合成的 ECB + 数据集的主题结构，以便模型面对词汇歧义挑战，实证结果
PDF3 years ago
自然语言推断中的性别偏见评估
本文提出了一种评估方法来测量天生的性别偏见，其通过构建一项挑战任务，通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现，许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误，但通过通过扩充训练数据集来确保性别
PDF3 years ago
KDD探究和评估结构节点嵌入
本研究探讨基于节点等价性的结构嵌入技术，并提供了严谨的内在和外在评估方法，发现节点邻域度数分布可以成为简单却有效的基准，并希望这些发现能够影响节点嵌入方法的设计并促进更全面和公正地评估结构嵌入方法。
PDF3 years ago
AAAI用于评估机器阅读理解的语义修改技术
本研究调查了最先进的机器阅读理解模型是否能够正确处理修改语义的现象，并提出了一种用于评估模型能力的新方法。对 12 种不同的神经体系结构配置和四个训练数据集进行大规模实证研究后，发现尽管这些模型在性能方面表现出色，但它们仍然难以正确处理语义
PDF4 years ago
深度神经网络中的噪声标签学习：综述
本文综述了深度学习中标签噪声的学习问题，提供了 62 种最新的鲁棒训练方法，并系统性比较了六个评估指标。同时，分析了噪声估计率和评估方法，并提出了未来的几个研究方向。
PDF4 years ago
ICML评估强化学习算法的性能
本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。
PDF4 years ago
SIGIR开放领域信息寻求对话中的澄清问题
本文介绍了在开放领域信息寻求对话系统中提出澄清问题的任务，并提出了一个离线评估方法和一个命名为 Qulac 的数据集，以便评估模型的性能，其实验表明优质问题有助于提高信息检索的效率，并提出一个由三个部分构成的检索框架，该模型显著优于竞争基线
PDF5 years ago
查询集对专家发现系统评价的影响
本文针对 AMiner 数据集，利用两个从该数据集中提取的数据集和三个基线算法，采用新的文档查询方法来评估针对从专家文档中直接抽取的一组查询的专家检索效果。实验结果表明，使用更真实的查询范围将提供不同于通常的主题查询的评估结果。
PDF6 years ago
COLING自然语言推理的压力测试评估
本文提出了一个评估方法，即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力，评估了六种句子编码模型在这些测试中的表现，揭示了模型在面对复杂语言现象时的优势和劣势，为以后的研究方向提供了重要的指导意义。
PDF6 years ago
用于在 FPGAs 上映射卷积神经网络的工具流：调查和未来方向
本文综述了现有的 CNN-to-FPGA 工具流，包括应用支持、架构选择、设计空间探索方法和性能等关键特性的比较研究，提出了最新 CNN 算法研究引入的主要挑战和目标，并提出了一种统一的评估方法，旨在全面、完整和深入地评估 CNN-to-F
PDF6 years ago
2017 年 DAVIS 视频对象分割挑战赛
本文介绍了 2017 年 DAVIS 视频物体分割挑战赛，该挑战赛是一个公共数据集，评测方法和比赛，它是为了特别针对视频物体分割任务而设计的，挑战赛遵循其他成功首创的做法，如 ILSVRC 和 PASCAL VOC，DAVIS 挑战赛包括数
PDF7 years ago
寻找实体解析的绿洲：最优渐近顺序重要采样
本文提出了一种基于 OASIS 的算法，通过选择合适的偏置分布并基于贝叶斯潜变量模型来更新样本来实现解决实体解析中匹配与不匹配记录之间极端类别不平衡引发的大量标注需求，从而在不影响统计学一致性的前提下，降低了样本量并准确估算了精确度和召回率
PDF7 years ago
SYSTRAN 的纯神经网络机器翻译系统
本研究旨在分享我们在神经机器翻译领域的专业知识，创造出竞争力强且适用于不同用例的翻译引擎，在实际生产流程中实现特定领域的高效翻译。我们提供了一种同时发布多种语言在线演示程序的方法，并探索了不同的实用选项、网络架构和评估方法等。
PDF8 years ago
句对打分：迈向文本理解的统一框架
本文提出新的统一框架，比较了常见的 IR 度量和神经模型在多个句子对分数任务和数据集上的性能，并尝试通过发布新的数据集来改进比较。我们提出了一种统一的开源软件框架，具有易于插拔的模型和任务，使我们能够尝试使用训练好的句子模型进行多任务复用并
PDF8 years ago
一种新的单目标追踪器性能评估方法
本文提出了一种单目标跟踪器绩效评估的新方法，在数据集、性能指标和评估系统方面对其作出要求。同时，引入了基于排名的方法，并构建了一个多方平台的评估系统，使其成为至今最具精密注释的数据集之一。此方法在 VOT2014 挑战赛上得到了应用，并对数
PDF9 years ago