- 基于大数据的机器学习和工程的电信欺诈分析
电信行业因欺诈而在全球范围内损失了 463 亿美元。本文提出了一种工业化的解决方案,采用自适应数据挖掘技术和大数据技术来准确、高效和具有成本效益地检测欺诈,并发现新的欺诈模式。该解决方案已成功地检测出少于 5% 的虚假阳性的国际收入分成欺诈 - 大型时间序列和时空数据模型:调查和展望
通过收集相关数据集、模型资产和有用工具,我们提供了面向时间序列和时空数据的大规模模型研究的最新进展,强调其坚实的基础、当前的进展、实际应用、丰富资源和未来的研究机会。
- 机器学习技术在不平衡数据中的综述与未来趋势
通过对 258 篇论文的综合分析,本文着重从技术和应用的角度对不平衡学习进行了深入研究,总结了各种方法在不同领域解决不平衡数据问题的实践,旨在为学术和工业界的研究人员提供一个全面的指南,以利用大规模不平衡数据进行机器学习。
- 基于专家增强的动态时间规整的异常检测
我们提出了一种名为 E-DTWA 的新颖异常检测方法,它基于动态时间规整(DTW)算法,并加入了人在环路概念的额外改进,其主要优点包括高效的检测、基于专家检测反馈的灵活再训练以及低计算和空间复杂度。
- 使用主观有趣子群及层次目标挖掘 Java 内存错误
通过 Subgroup Discovery 技术,针对企业资源规划系统(ERP)中的复杂目标概念,对发生的内存溢出问题进行数据挖掘,并提出了一种处理具有层次结构的复杂目标概念的新方法。
- 矩阵分解在热带和混合热带线性代数中的应用
矩阵分解在机器学习和数据挖掘中有广泛应用,包括协同过滤推荐系统、降维、数据可视化和社区检测。本文基于热带代数和几何在机器学习领域的最新成果,研究了两个涉及矩阵分解的问题。我们提出了一种改进的算法来解决热带矩阵分解问题,并通过将传统矩阵乘法与 - biquality-learn: 一个用于双质量学习的 Python 库
数据挖掘的民主化得到了广泛成功,其中强大且易于使用的机器学习库在其中发挥了重要作用,然而,实践中强监督信号稀缺,研究者必须采用弱监督方法,并且在将机器学习模型部署到现实世界中时,数据集的偏移也是一种常见现象,因此提出了一种名为 Biqual - 将领域专家为中心的本体设计集成到 CRISP-DM 中,用于网络物理生产系统
本文介绍了一种集成方法,旨在使数据科学家能够更快速、可靠地了解 CPPS,并将其结果应用于异常检测用例。
- CAMP:一种上下文感知的板球运动员表现度量
基于数据挖掘和精确的表现情景,我们提出了一种用于量化板球比赛中球员个人贡献度的上下文感知度量方法 CAMP,并通过对 2001 年至 2019 年之间的有限局板球比赛数据的实证评估,证明了 CAMP 在选人、训练和制定策略等方面的优越性。
- 网络安全培训中的学生评估自动化:模式挖掘与聚类
使用数据挖掘和机器学习技术对 18 个网络安全培训会话的数据集进行分析,发现了学员的典型行为、错误、解决策略和困难培训阶段,结果显示数据挖掘方法适用于分析网络安全培训数据,并可应用于评估学员、支持他们和改进培训设计。
- 探寻未知未知
本文介绍了一个简单的框架,基于 Formal Concept Analysis (一种越来越被应用于数据挖掘和组织数据的格论子领域) 来系统地思考超越预设框架,寻找未知未知的未来相关事件。
- ICML基于拟阵的全动态次模最大化
研究单调子模函数下的最大值问题以及约束条件下的问题,提出了一个随机的动态算法,并给出了一个高效的数据结构来处理发生了添加和删除变化的值,该算法能够提供一个 4 近似解。
- PyPOTS: 一个用于部分可观测时间序列数据挖掘的 Python 工具箱
PyPOTS 是一个针对多元部分观察时间序列(即具有缺失值的不规则时间序列)的开源 Python 库,提供数据挖掘和分析中的若干算法,包括插补、分类、聚类和预测,并且具有良好设计且全面文档化的编程接口,可供学术研究人员和工业专业人员使用。
- 从学术文章中提炼文本分类和物体识别的框架
本论文提出了一种机器学习与基于规则的混合方法,称为 TBRF,用于数据挖掘学术论文中的特定信息,通过分析学术论文中的标准布局和排版方法,通过实验验证表明,该方法可以在分类准确率和表格及图片检测准确率方面达到超过 95% 和 90% 的精度。
- ACL低资源任务导向的对话系统的多重对称双学习
通过数据挖掘和双重学习,本论文提出的新方法可以显著提升任务导向对话系统在低资源情境下的效果。
- 350 + 种语言的分层模型在语言识别、识别错误及翻译中的应用
通过编制一个 50k+ 多语种儿童故事对齐语料库和构建轻量级的逐层模型,我们提出了一种名为 Hierarchical LIMIT 的方法来解决低资源语言的数据瓶颈问题,可用于短文本的语言识别和印度或非洲语言之间的研究。
- 群体智能在数据聚类机制中的作用
本文回顾了最新的数据聚类方法,包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题,并比较它们哪个适合特定的实际问题。
- 评估用于分析波斯广告数据的 BERT 和 ParsBERT
这篇论文探讨了互联网对现代交易的影响,以及从这些交易产生的数据对组织改善其市场营销努力的重要性。本文以伊朗的在线购买和销售产品和服务的市场 Divar 为例,并介绍了一个竞赛来预测在 Divar 网站上发布的汽车销售广告的百分比。作者在伊朗 - HTPS: 健康数据异构传输预测系统
本文提出的 Heterogeneous Transferring Prediction System(HTPS)采用特征工程机制将医疗数据转化成稀疏和密集特征矩阵,并应用自编码器网络实现特征嵌入和来自异构数据集的知识移植,能在各种预测任务和 - 利用数据挖掘算法推荐源代码更改
本文通过对七个开源软件项目的源代码更改历史进行数据挖掘,提出了一种自动推荐源代码更改的方法,并评估了四种广泛使用的数据挖掘算法的性能和执行时间,发现在不同的软件项目中,一些频繁模式挖掘算法,如 Apriori,可能比其他算法更有效,在规模较