- PlasmoData.jl—— 用于建模和分析复杂数据的 Julia 框架
这篇论文介绍了一个使用图论概念来进行复杂数据集建模和分析的开源 Julia 框架 PlasmoData.jl,并展示了如何使用该框架来解决图像分类、疾病爆发和技术路径分析等问题。
- WePaMaDM-Outlier Detection:使用模式方法的加权异常值检测在大规模数据挖掘中
本文提出了与独特的大规模数据挖掘领域相关的 WePaMaDM 异常检测方法,探讨了数据建模在监视、故障检测和趋势分析等异常检测技术中的重要性与意义,同时介绍了半监督任务中的新颖检测方法
- 受进化算法启发的贝叶斯决策树
本文提出了一种使用序列蒙特卡洛和进化算法采样的贝叶斯决策树数值方法,比传统的马尔可夫链蒙特卡洛方法有更快的迭代速度,并且能够更准确地对复杂和不确定的数据进行建模。
- 粗糙随机性及其应用
本研究引入了新的概念和算法来处理在粗糙推理,可解释的人工智能和机器学习中的意义不明确和动态的情境。通过引入基于代数的机器学习算法,本研究证明了这些概念的有效性。
- 自动预测:匈牙利水痘病例估计的时间序列预测模型评估
本文利用时间序列预测技术对匈牙利的水痘病例进行模拟预测,演示 LSTM 模型在县级预测方面的表现优于其他模型,SARIMAX 模型在国家级预测方面的表现最佳。同时,我们的数据预处理方法的表现也优于传统的数据预处理方法。
- 产品安全成语:构建因果贝叶斯网络进行产品安全和风险评估的方法
本文介绍了使用习语来构建基于数据和知识的产品安全和风险评估因果贝叶斯网络的方法。结果显示,所建立的具有代表性的产品安全习语可以在没有太多产品测试数据的情况下,对各种产品进行安全和风险评估。
- BrainGB: 基于图神经网络的脑网络分析基准
使用结构或功能连接来绘制人脑的连通图已成为神经影像分析中最普遍的范例之一。 本文提出 BrainGB 作为探索有效的 GNN 设计的基准,来实现开放和可复现的基于 GNN 的大脑网络分析研究。
- LightTag:文本标注平台
该篇论文介绍了一个基于 LightTag 的文本标注工具,其设计和构建基于优化全局 NLP 流程的生产力而非个体标注员的生产效率,并讨论了数据建模和用户界面等方面的决策如何为整个 NLP 生命周期服务。
- MMBreiman 的两种文化:无需选边站
该论文提出数据分析涉及数据建模和算法建模两种文化之间的选择,而机械模型则提供了一种有效的解决方案,可以生产灵活、可解释、科学的混合模型,以获得准确和稳健的预测,并且可以解决数据分析中的一些挑战。
- MM重温罗生门:对 “两种文化” 的评论
本文针对 Leo Breiman 的文章《The Two Cultures》进行批判性反思,重点讨论了 Breiman 所谓的 “Rashomon Effect”,探究了许多模型可能有相同的预测精度,但处理数据方式却有很大差异,从而导致根据 - 多分辨率张量分解用于多空间传递网络
本文研究足球空间传球数据的建模和分析,开发了一种基于多分辨率数据表示和泊松非负块项分解模型的方法,自动生成网络图案以概括不同球队的传球策略并探究其对战绩的影响,文中应用了 2014 年世界杯的详细传球记录数据。
- 从高维常微分方程中重构网络
本文提出了一种新的基于加法普通微分方程的非参数建模方法,并且在高维数据集下表现得更好,该方法不需要进行导数估计,从而有助于动力学系统和基因调控网络等的参数估计。
- 深高斯过程
本文介绍了深度高斯过程模型,该模型可用于稀少数据的拟合,以及通过贝叶斯方法进行模型选择。
- 通过几何 l_p 最小化实现多子空间鲁棒恢复
本文研究了从混合分布中采样的数据,通过最小化样本数据与 K 个线性子空间的 l_p 平均距离,同时恢复 K 个子空间并解释了 l_p 能量最小化方法在多子空间数据建模中的失败和成功
- 用几何 lp 最小化概率地恢复点云中的多个子空间
研究了通过 lp 最小化距离来恢复高维数据集中 K 个线性子空间的问题,其中数据来自于一个混合分布,包含 K+1 个组成部分,包括一个在球体上均匀分布的 outliers 和 K 个在球体上限制的直线子空间,以及解决了在这个问题中 lp 最 - 数据建模的 RooFit 工具包
RooFit 是一个用 C++ 编写的库,用于在 ROOT 环境中进行数据建模,支持建立复杂的拟合模型和使用似然函数进行拟合、绘图和大规模数据处理。