- GPT 的年龄是多少?:使用人口统计数据的 HumBEL 框架来评估语言模型
本研究提出了一种通过临床方法测量和比较语言模型语言技能,以及自动化技术对其进行评估的方法,发现 GPT-3.5 模型在不同任务中具有不同的能力,并在社交语言使用上存在困难。因此在使用这些模型作为公共工具时,重要考虑社会任务需求及相关人群的使 - 手术阶段识别中指标的重要性
本文概述了自动手术阶段识别方法的评估过程中常见的偏差和对先前报告的结果进行了结构化的概述,以考虑评估协议的差异,并提出更加注重评估细节可能有助于在手术阶段识别任务上获得更一致和可比较的结果,并最终实现对该领域进展的可靠结论及其在临床实践中的 - Type-to-Track: 基于提示的跟踪技术,用于检索任何物体
本文提出了一种使用自然语言描述对象并进行多目标跟踪的新范例,介绍了包含文字描述的视频数据集 GroOT,提出了用于这一任务的两个新的评估协议和评估度量,并采用基于 transformer 的 MENDER 方法开发了一种高效的模型,证明其在 - FICNN:深度卷积神经网络解释框架
本文提出了一种卷积神经网络模型解释框架,指出了模型解释和解释任务的差异,定义了用于表征解释方法的六个因素,并讨论了现有解释方法和评估协议对它们的验证,以及提出了可能出现的研究问题。
- 基于损坏的多模态数据的实时监控下的视觉 - 红外人员再识别融合
本文提出一种名为 具有多种模态中间流融合(MMSF)的高效模型,用于多模态可见光红外人物再识别,旨在提高对损坏的多模态图像的鲁棒性。同时,我们还提出新的可扩展的受损数据集和策略,以提高 V-I 个人再识别系统在现实世界操作条件下的准确性与鲁 - 电商产品问答:一项调查
本文系统地回顾现有的产品问答研究,将 PQA 研究分为四种问题设置,并分析了各种设置的优缺点、现有数据集和评估协议。同时,作者总结了 PQA 所特有的最重要的挑战,并讨论了它们对应的解决方案和未来研究方向。
- 离网 MARL: 一个数据集生成框架,具备合作离线多智能体强化学习基线
该研究为填补离线多智能体强化学习(MARL)领域中缺乏标准基准和评估方法的空白,提出了一个名为 OG-MARL 的离线 MARL 数据集和算法框架,包括一套标准评估方案。OG-MARL 的数据集本质上是从在线 MARL 基准中生成的,具有复 - 知识为力量,理解为影响力:路径推荐中的效用和超越目标,解释质量,以及公正性
通过复制三种最新的路径推理推荐方法,基于知识图谱 (KG) 设计公共评估协议,在两个公共数据集上研究它们的推荐效用、解释质量和公平性等领域,以提高路径推理推荐的性能和应用效果。
- 重新审视黄金标准:用稳健的人类评估来立足摘要评估
本文探讨了现有自动摘要的人工评估协议和基准的不足,提出了基于精细语义单元的修改版自动摘要重要性协议(ACU)和大型人工评估数据集(RoSE),并与其他人工评估协议进行了比较,证明了新的基准标注有助于更为稳定和显著的自动度量结果,可用于调整大 - 大规模学习通用表示以实现说话人识别
本研究旨在开发一种演讲者识别模型,该模型需要经过充分的架构和大量数据的训练,最终能够在不同的场景下得到实际应用,并且经过实验证明,采用 MFA-Conformer 模型和大数据训练配置可以使性能提高超过 20%。
- 可靠的临床 AI 解决方案:深度学习模型中的不确定性量化在医学图像分析中的统一综述
该综述回顾了现有的用于量化深度学习模型预测不确定性的方法,并着重关注了医学图像分析中特有的挑战、评估方案以及不确定性量化在医疗领域中的开放性挑战。
- 弱监督音视频来源定位的深入探究
本文提出了一种新的视听源定位方法,通过扩展音频图片嵌入的训练数据以及采用新的评估方法来解决定位不准确和过拟合的问题。
- 神经数据转换为文本生成的创新
本文调查了神经元数据到文本生成的方法、基准数据集和评估协议,突出了技术应用阶段及其在自然语言生成领域中的前景。
- ECCVUC-OWOD: 未知类别的开放世界目标检测
本文提出了一种新的 Open World Object Detection 问题,称为 Unknown-Classified Open World Object Detection (UC-OWOD),并构建了两个阶段的目标检测器,以解决它 - 文本背门学习的统一评估:框架与基准
本文研究了文本后门攻击对 NLP 系统的实际威胁,并提出了特定的评估协议以解决现有评估中忽略的真实环境差异问题。在此基础上,文章还开发了一个开源工具包 OpenBackdoor,以促进文本后门学习的实现和评估,在此基础上,文章详细探讨了攻击 - 终身学习中的持续评估:发现稳定性差距
本论文提出一个连续的学习框架,旨在解决神经网络训练过程中遗忘的问题,并定义了一系列新的指标来实现对学习机的实时评估,研究表明既有重放机制又有正则化机制的在线学习方法都存在稳定性差距的问题。
- 深入探讨视频中去偏置的时间句子定位:数据集、度量和方法
本文提出了一种新的视频文本时间对齐评估协议,包括将常用的数据集重新组织为不同的分布以及引入一种新的评估度量方法。此外,作者还提出了一种基于因果关系的多分支去偏置去混淆框架,帮助模型更好地对齐句子查询和视频片段的语义,实现了更好的性能。
- 关于解决离分布检测评估方案中的随机性的问题
本研究针对 Deep Neural Networks 对于训练集以外数据的表现会出现不可预测情况,提出 out-of-distribution detection 机制,并通过 Monte Carlo 方法推测性能,指出当前的 evalua - 基准测试中文文本识别:数据集,基线和实证研究
本文填补了中文文本识别领域的数据集缺失和统一的评测标准,提出了搜集四大类中文文本数据集的方法,为各类应用场景提供基准,并探究了基于偏旁部首的辅助方法对中文识别性能的提升。
- ICCV单幅图像 HDR 重建中的度量欺骗方法
本文旨在探讨 SI-HDR 重建评估中存在的问题,并提出了统一标准以进行有效的比较,同时指出深度学习方法的提高并不一定能够反映出视觉上的优越性,呼吁对 SI-HDR 重建进行更好的评估协议。