多进程数据分类

Dec, 2023

Data Classification With Multiprocessing

Anuja Dixit, Shreya Byreddy, Guanqun Song, Ting Zhu

TL;DR本文研究了如何通过并行训练不同超参数的分类算法来减少执行时间，并使用 Python 多进程来测试这一假设，通过集成所有进程的预测来提高准确性。结果表明，集成方法提高了准确性，多进程减少了执行时间。

Abstract

classification is one of the most important tasks in Machine Learning (ML) and with recent advancements in artificial intelligence (AI) it is important to find efficient ways to implement it. Generally, the choice of cl

classification hyperparameters parallelism ensemble multiprocessing

发现论文，激发创造

并行机器学习算法的性能和能耗

本文讨论了在高性能计算中，采用低功率算法以优化机器学习模型的效率，并测试逻辑回归、神经网络等算法在不同数据规模、模型复杂度下的并行加速表现。

May, 2023

经典算法是公平学习者：对自然天气和野火发生的分类分析

经过评估，本文旨在展示经典的机器学习算法（如决策树、Boosting、支持向量机、k 最近邻算法和浅层人工神经网络）在处理稀疏数据的分类任务中的效果，并观察数据噪声增加时对这些算法的影响，以及不同参数对分类准确性的提升。研究表明，即使在有限的数据集和嘈杂的环境下，这些经典算法依然具有很好的学习性能。

Sep, 2023

从分布式机器学习到分布式深度学习的调查

本文就分布式机器学习算法进行了全面的调研，综述了当前的技术发展前景和所存在的限制。

Jul, 2023

CascadeML: 多标签分类自动神经网络架构演化与训练算法

本论文在多标签领域提出一种神经网络算法，CascadeML，用于基于级联神经网络的多标签神经网络的训练，无需或最小化超参数调整，并考虑标签之间的关联，同时能够获得很好的性能。

Apr, 2019

分布式机器学习调查

本文介绍机器学习技术的发展以及为了应对更加复杂的应用而需要分布式系统来分担机器学习的工作负担，但分布式系统带来的挑战在于高效地并行训练过程和创建一个连贯的模型。文中提供了分布式机器学习领域当前的最新进展和系统概述。

Dec, 2019

文本分类的 12 种机器学习模型的流程和比较研究

本文介绍了一个基于机器学习文本分类器的新技术管道，并应用于公共垃圾邮件语料库中，优化参数选择和改善预处理阶段中特定方法的模型表现，评估了不同评估指标，如精确度，召回率等，最终发现可在 Enron 数据集上实现 94％的 F-Score，得出关键词包括自然语言处理、垃圾邮件过滤。

Apr, 2022

人工智能中的镜中镜效应：如何预测应用于超参数调整的神经网络的准确度

本文提出了一种基于神经网络的初始行为来预测其准确性的低成本策略，应用于超参数优化中。结果表明此方法通过使用支持向量机技术能够找到最优准确度对应的超参数设置。

Jun, 2019

通过多模型降维算法和分类算法的多模态融合在转移性乳腺癌预测中的应用

利用机器学习的预处理算法和分类算法，研究了检测转移性癌症的潜力，通过降低数据维度和使用 k 最近邻算法，获得了最高 71.14% 的准确率。

Sep, 2023

Auto-WEKA：分类算法的组合选择与超参数优化

使用贝叶斯优化和特征选择技术，全自动选择机器学习算法和设置其超参数，在 21 个数据集的分类表现中达到了比标准选择 / 超参数优化方法更好的结果。

Aug, 2012

阿里巴巴亿级分类训练系统

本研究探讨如何解决深度学习中因分类数目巨大而导致的内存、计算资源消耗问题，提出一种大规模训练系统，通过使用混合并行训练框架、KNN softmax、梯度稀疏化等新方法，大幅提高了训练速度与效率，并在实验中取得了高准确率。

Feb, 2021