- 使用分治策略和轻量级卷积神经网络进行手骨年龄预测
通过使用深度神经网络模型对手部放射线的小区域进行预处理和估计骨龄,提高了定骨年龄估算的准确性,而不增加所需计算资源,测试集平均绝对误差为 3.90 个月(0-20 岁范围内)和 3.84 个月(1-18 岁范围内)。
- 远距离下激光雷达语义分割的预处理和后处理基于体素的方法
本文提出了一种多阶段的 LiDAR 点云预处理和后处理方法,在多扫描设置中结合最先进的模型,旨在解决单次扫描中的挑战,通过对给定模型在单次扫描设置中进行定量评估,我们展示了我们的方法的好处,在中距离和远距离上,mIoU 性能显著提升超过 5 - 一款全面易用的多领域多任务医学影像元数据集(MedIMeta)
通过将机器学习技术与医学图像分析领域相融合,本研究介绍了一种名为医学图像元数据集的新型多领域、多任务元数据集,该元数据集包含 19 个医学成像数据集,涵盖 10 个不同领域和 54 个医学任务,并且采用相同的格式标准化,可在 PyTorch - 手写文本识别系统的最佳实践
手写文本识别已得到迅速发展,本论文通过实验证明了在预处理、CNN 架构和 CTC 损失三个方面的简单修改,可以提高手写文本识别系统的性能。
- 海底工程异常检测的有监督时间序列分类
通过监测物理系统的仿真数据,我们使用监督机器学习分类算法对时间序列进行分类,并讨论了时间序列数据预处理、统计分散度和降维技术。我们提出了一种直观的基准方法,并讨论了其效率,并通过不同性能指标的比较,展示了使用机器学习技术在决策中的优势。
- 引导量子压缩的希格斯辨识
设计了一个集成预处理和量子分类算法的可训练模型,即引导量子压缩模型,来解决量子机器学习算法使用经典自动编码器作为独立预处理步骤可能导致分类性能下降的问题,并通过应用于 LHC 的质子 - 质子碰撞中的希格斯玻色子识别,展示了该模型在解决分类 - 通过尺度不变的数据预处理使聚类算法能够检测不同密度的聚类
利用 ARES 变换的数据预处理方法可以使聚类算法对数据表示更加鲁棒,并能够检测不同密度的聚类;实证结果表明,在广泛范围的真实数据集上,经过 ARES 转换后的聚类产生更好且更一致的结果。
- 生成数学 AI:第一部分 --MathPile:一个十亿词级别的数学预训练语料库
该研究介绍了 MathPile,这是一个高质量、大规模的数学专注语料库,包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。此外,还对下游基准测试集进行了数据污 - 基于分布式 QCNN 的深度恶意软件检测
通过使用灰度处理方法与由五个分布式量子卷积网络和评分函数组成的模型相结合,我们实现了对数据集的新预处理,以提高基于图像的恶意软件检测的性能,而不增加量子位所需的资源,结果表明测试的准确率和 F1 评分分别提高了约 20%。
- 基于 Sentinel-1 数据的高分辨率洪水制图的标准化分析数据立方体(STAR)
利用标准化分析就绪(Standardized Analysis-Ready,STAR)数据和 Google Earth Engine(GEE)环境,提出了一个工作流程来评估 2022 年尼日利亚洪灾的模型性能。
- 一个用例:将查询重写重新定义为统计机器翻译问题
该论文提出了一个基于单语机器翻译模型的查询重写流程,用于学习重写阿拉伯用户搜索查询,并描述了创建用户查询和网页标题之间映射的预处理步骤。
- 公平感知的图神经网络:一份调查
通过对图神经网络的公平性技术进行分类和研究,本文介绍了改善图神经网络公平性的先前工作,包括预处理步骤、训练过程和后处理阶段,同时提出了公平性评价指标的直观分类,并对用于基准测试的图数据集进行了总结,还针对未解决的关键问题和挑战进行了讨论。
- CVPR残差特征金字塔网络用于增强血管图案
引入 ResFPN 作为通用的预处理方法,该方法采用底层金字塔架构和特征聚合模块,能够在不同尺度下提取指静脉结构,实现指静脉识别的精度提升。实验结果表明,经过 ResFPN 预处理后,在常用识别管线中,平均识别错误率下降高达 5%。即使在不 - 使用超分辨率技术作为预处理的语义分割
本文研究将图像超分辨率作为预处理步骤,与语义分割相结合,以提高文档图像二值化的结果和性能。
- 通过正确翻译命名实体来提高神经机器翻译质量
本文介绍了一种通过将名称实体作为预处理步骤进行翻译 / 音译来提高神经机器翻译质量的方法,并进行了实验证明其性能提高。考虑了三种类型的名称实体,包括人名、地名和组织名。结果表明,该系统能够正确翻译大多数名称实体,其准确率为人名 99.86% - 在群体公平设置中检测敏感特征的统计学方法
本文提出了一种基于 Hilber-Schmidt 独立性准则的预处理步骤,用于自动识别敏感特征,以解决机器学习模型在高度影响社会的决策支持系统中不公平结果的问题。我们的实验结果证明了我们的假设,并表明文献中被认为是敏感的几个特征不一定产生不 - EMNLPBERT 基准评估指标的可重复性问题
研究探讨最近四种基于 BERT 的方法是否具有可重复性,发现研究结果通常由于未进行文档化的预处理、缺失代码、报告基准度量产生更弱的结果等原因而失败,一个问题源于将分数与错误的 csv 文件列相关联而使得分数高 5 点。同时,该研究还证明了预 - 预处理有助于训练超参数化神经网络吗?
本论文提出两种新的预处理方法以实现针对深度神经网络的快速训练,从而绕过传统的训练方法中的高计算成本,并提供大量其他快速训练方法的理论启示。
- EfficientPhys: 实现简单、快速和准确的基于相机的生命体征测量
本文提出了两种新颖高效的神经模型 EfficientPhys,不需要进行任何的预处理,只需使用原始视频帧进行输入,无需进行人脸检测、分段、规范化、颜色空间变换等操作即可实现对基于摄像头的生理测量的高效计算,取得了三个公共数据集上的良好表现
- EMNLPfairseq S^2: 一种可扩展且可集成的语音合成工具包
本文介绍了 fairseq S^2,它是为语音合成设计的 fairseq 扩展,具备多种自回归和非自回归文本到语音模型及其多说话人变体。此外,还构建了多种预处理工具,以便使训练语音合成模型所需的数据更易获取。这篇论文还展示了一套自动度量标准