- HealthGAT: 使用图注意力网络对电子健康记录进行节点分类
利用图注意力网络和医学代码,通过定制电子健康记录(EHR)的预训练任务,HealthGAT 模型对 EHR 进行细化嵌入,实现了对复杂医学关系的全面分析,并在节点分类、再入院和诊断分类等下游任务中显示出优越性能。
- 代码外壳技术报告
CodeShell-Base 是一个七十亿参数的基础模型,具有 8K 上下文长度,通过将 Grouped-Query Attention 和 Rotary Positional Embedding 整合到 GPT-2 中,它集成了 Star - 基于物理信息卷积神经网络预测折叠分叉
本研究提出了一种基于物理信息的卷积神经网络(CNN),用于识别靠近折叠分叉的动力系统的时间序列。研究结果表明,通过特定的数据预处理,该 CNN 能够准确捕捉与接近折叠分叉相关的重要特征,为类似的 CNN 在实际应用中的开发铺平了道路。
- 基于生物启发特征选择的慢性疾病预测数据集优化
通过比较分析,本研究证明了生物启发式优化算法在慢性疾病预测的特征选择中的有效性,并强调了数据预处理的重要性,为提高医疗保健结果提供了宝贵的见解。
- 基于超宽带的静态手势分类
通过使用专有的 UWB 雷达传感器技术,本文提出了一个强大的基于 UWB 的静态手势识别框架。我们通过大量数据收集建立了包含五种常用手势的数据集。我们的方法包括全面的数据预处理流程,其中包括异常值处理、保持纵横比缩放和伪彩色图像转换。我们在 - 基于人工智能缺陷检测和分类模型的形态图像分析与特征提取
提出了 AI 推理器,它从图像中提取缺陷的形态特征(DefChars),并利用决策树对 DefChar 值进行推理,随后导出可视化和文字解释以提供对基于掩膜的缺陷检测和分类模型输出的洞察,并为增强数据预处理和整体模型性能提供有效的缓解策略。 - 无线电图像立方体分类的进展
本研究概括了机器智能在射电图像分类方面的应用,并聚焦于射电星系形态分类。在射电天文学中,合作制作注释数据集和索引识别到的射电源是必要的。
- 在实际应用中应用自监督学习,实现混合式自动语音识别
本文讨论了如何利用未经筛选的音频数据进行自监督学习,在数据预处理到部署流式混合语音识别模型的整个过程中研究了多种不同的预训练策略,比较了近期开发的对比损失,并通过实验结果表明,利用领域内未筛选数据进行自监督学习的表现比领域外其他预训练策略要 - ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包
ESPnet-SE 是一个新的工具包,支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成,它能够处理单声道和多声道数据,并提供数据预处理、特征提取、训练和评估流程的全套配方。
- 利用越南社交媒体特征进行越南文本情感识别
研究表明,适当的基于越南社交媒体特征的预处理技术结合情感上下文的关键子句提取,可显著提高 MLR 的性能,达到最佳 F1 得分 64.40%, 比 UIT-VSMEC 作者构建的 CNN 模型 (59.74%) 提高了 4.66%。
- KDD无需包外采样的异常检测
本文提出了一种基于模型的异常检测方法,Out-of-Bag 异常检测,它可以处理由数字和分类特征组成的多维数据集,将无监督学习问题分解成集合模型的训练。通过对基准数据集的全面实验展示了该方法的最新性能,并通过房屋估值的案例研究展示了其可以作 - 利用 SDO/HMI 图像时间序列和 SHARP 参数识别太阳耀斑前兆
本篇论文提出了多种方法来构建先兆,这些先兆可用于早期预测太阳耀斑事件。文章建立了一个数据预处理管道,从多个来源提取有用数据,以准备机器学习算法的输入。提出了两个分类模型:有活动区域时的耀斑分类和强耀斑事件和弱耀斑事件的分类。采用深度学习算法 - 深度回归综合分析
该研究对深度回归技术进行了系统评估和统计分析,基于四个视觉问题的实验,结果表明使用经典的深度学习网络结构(例如 VGG-16 或 ResNet-50),并在数据预处理上进行适当的调整可以获得接近最先进水平的结果,同时相比于网络结构的改变,数 - momentuHMM:动物移动的广义隐马尔可夫模型的 R 包
本研究介绍了开源 R 软件 momentuHMM,并利用该软件针对遥测数据处理中的一些局限性提出了一些新的解决方案,帮助更多的人进行基于隐马尔可夫模型的动物运动分析研究。
- 自动化机器学习的概率矩阵分解
本文提出结合协同过滤和贝叶斯优化的方法,利用概率矩阵分解和贝叶斯优化选取数据预处理方法和机器学习模型,以自动化地完成机器学习管道的选择和调整任务,实现了在多个数据集上大幅超越现有最佳方法的性能。
- 学习卷积神经网络进行人脸反欺骗
本研究采用深度卷积神经网络(CNN)学习特征,在经过数据预处理后,能够大幅提高面部防欺诈性能,使得在 CASIA 和 REPLAY-ATTACK 数据集中相对错误率降低超过 70%,同时在两个数据集之间的交叉测试中,实验结果表明 CNN 能