大数据系统应对机器学习挑战:向大数据科学服务发展
这篇文献讨论了大数据的显著特征及其对统计和计算方法的范式变革产生的影响,强调了高置信度集中最稀疏解的可行性,并指出大多数针对大数据的统计方法中的外生性假设无法被验证,容易导致错误的统计推断和错误的科学结论。
Aug, 2013
使用机器学习模型,大数据引入了一种新的预测能力。本文评估了 “大数据” 在典型材料科学机器学习问题中的含义,涉及数据量、数据质量和真实性以及基础设施问题。通过选定的示例,研究了模型在相似数据集上的泛化能力、如何从异构数据源收集高质量数据集、模型的特征集和复杂性如何影响表达能力以及创建更大数据集并在其上训练模型所需的基础设施要求。总之,我们发现大数据在各个方面都带来了独特的挑战,这应该促使进一步研究。
May, 2024
本文介绍了 IBM 的深度学习服务(DLaaS)的软件架构细节,该服务提供深度学习库,通过分布和编排层,资源供应层实现在云中可伸缩和弹性的管理,利用深度学习以及云计算相结合的业务模式,将传统机器学习方法向深度学习推进。
Sep, 2017
通过将语义技术和机器学习与云系统相结合,SemCloud 为非云计算专家提供了一个语义增强的云系统,它依靠领域本体和数据集成映射来实现数据处理和分析的分布式计算。
Aug, 2023
本文介绍了一个自动化的机器学习平台,用于在数字广告技术环境中构建数千个预测用户行为的模型,并实现连续的优化广告活动,涉及数十亿的广告展示量和数亿的用户,以及多个不同的性能目标。
Feb, 2014
本文介绍了一种分布式、可伸缩的平台架构,可用于有效的实时大数据采集和分析,其中结合智能家电的实时预测维护进行了案例研究,结果表明该平台具有成本效益和本地化优势。
Oct, 2022
数字革命已经导致了人类行为的数字化,出现了众筹和众包等新增的行,这给营销研究和实践者带来了前所未有的机会,但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题,开发了计算方法以管理与消费者行为相关的 “大数据” 等技术,特别是机器学习,使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术,旨在将计算社会科学应用于理解和利用公开的消费者数据。
Jun, 2023