- 评估 ChatGPT 和 GPT-4 在视觉编程中的应用
生成式人工智能和大型语言模型在计算机教育领域有潜力通过自动生成个性化反馈和内容来大幅改善情况。本文研究了这些模型在文本编程教育领域的能力,但是对于常用于 K-8 编程教育的可视化编程领域的性能尚未探究。本研究评估了 ChatGPT 和 GP - 流体指导纳米尺度定位的设计空间探索见解
利用纳米装置进行 Terahertz 无线通信技术实现血流引导定位,为精准医学提供了早期且精确的诊断,降低了成本和侵入性,本文针对血流引导定位的两种最新方法采用一系列异构性能度量标准进行性能评估。
- DUMB: 用于荷兰模型智能评估的基准测试
我们引入了荷兰模型基准: DUMB。该基准测试包括一组多样化的低、中、高资源任务数据集。通过比较 14 个预先训练的模型 (单语言和多语言,并且大小不同),我们评估了基准任务的内部一致性,以及可能导致高性能的因素。我们的结果表明,当前的荷兰 - 一个用于同音音乐演奏审美质量评估的顺序复杂度模型
本文提出使用 Birkhoff 美学评价方法提高 AI 音乐性能生成任务并研究音乐表演的客观测量方法,并通过实验表明该方法在音乐表演评估方向有广泛适用性。
- 论手语检测中签名者重叠的重要性
通过对当前标志检测基准数据集中签约者重叠对准确性的影响进行详细分析,我们提出使用不含重叠的新数据集划分来更真实地评估标志语言检测系统的性能,从而提高其准确性和泛化性能。
- ICML公平性评估中的不确定性:尽管波动仍能保持稳定的结论
文章提出了一个新的评估算法性能及公平性指标的贝叶斯框架 ——“不确定性事关框架”,可以用于稳定的偏见感知性能评估,并在 K 折交叉验证过程中进行了应用。实验结果表明,相比于经典的评估框架,该方法在信息和稳定性方面有更大的优势。
- 学习型布隆过滤器中分类器选择的关键分析
提出一种用于设计、分析和实现 “Learned Bloom Filters” 的新方法,并结合分类器和数据集进行了性能评估,我们的实验表明,这种方法和软件可以有效地帮助确定最佳的分类器和最适合不同数据复杂度问题的 “Learned Bloo - 面向电子病历问答的神经语义解析系统
本文旨在系统评估两种神经 SP 模型在 EHR 问题答案检索上的性能,发现这些先进的神经模型具有良好的易用性和通用性,但也存在常见错误类型。
- 自动机器学习技术的崛起:面向工业应用的高效软件和应用程序调研
本文综述了现有的自动机器学习工具,包括开源和商业工具,并阐述了一个评估自动机器学习解决方案在实际应用中表现良好的框架,该框架考虑了各方利益和人机交互。此外,通过对学术和商业案例研究的广泛评估和比较,本综述也评估了 AutoML 在 2020 - 利用输入压缩来界定广义误差:无限宽度神经网络的实证研究
本文探讨了利用输入和最终层表示之间的互信息来估算深度神经网络广义误差,并使用输入压缩边界将互信息和广义误差联系起来,证明其在许多情况下表现优异,有助于消除试错的过程。
- 风力涡轮机运维人工智能的计量学综述:过去、现在和未来
本文运用统计计算方法,对风能领域人工智能技术的概念和主题演进进行了系统综述,提出了人工智能技术在风电设备运维中的挑战和应对策略,旨在鼓励更多组织采用数据驱动的决策技术,以实现风能可靠性的增强和全球应对气候变化的目标。
- WWWLBCF: 一个大规模的预算约束因果森林算法
在大型在线平台上,提供刺激(例如亚马逊优惠券、优步折扣和抖音视频奖励)以增加用户参与和平台收入是一种常见策略,然而如何在预算限制下为每个用户选择适当金额的刺激成为一个有实际意义的研究问题。本文提出了一种基于树的、适用于现代分布式计算系统的大 - 深度神经网络计算机视觉中的黑盒错误诊断:工具综述
本论文调查了支持黑匣子性能诊断范式的工具,以深度神经网络为基础,探讨了模型行为和预测误差的诊断过程,并讨论了相关研究方向和除 CV 外的诊断工具的简要概述。
- 一种基于 PatchMatch 的密集场算法用于视频复制移动检测和定位
提出了一种新的用于可靠检测和定位视频剪贴 - 移动伪造的算法,该算法使用密集场方法,并具有针对后处理操作的鲁棒性,通过一个专门设计的新数据集的实验结果表明,在各种具有挑战性的情况下,该方法能够准确地检测和定位视频剪贴 - 移动伪造。