使用机器学习模型,大数据引入了一种新的预测能力。本文评估了 “大数据” 在典型材料科学机器学习问题中的含义,涉及数据量、数据质量和真实性以及基础设施问题。通过选定的示例,研究了模型在相似数据集上的泛化能力、如何从异构数据源收集高质量数据集、模型的特征集和复杂性如何影响表达能力以及创建更大数据集并在其上训练模型所需的基础设施要求。总之,我们发现大数据在各个方面都带来了独特的挑战,这应该促使进一步研究。
May, 2024
介绍大数据科学中使用云计算作为一种实用且成本效益高的解决方案,着重分析软件堆栈的建设模块,为数据科学家提供大数据分析应用的普及服务,为该领域的最新发展和挑战提供各种见解。
Sep, 2017
使用 GPS、遥感和计算模拟等技术,收集大量来自地球科学、农业、智能城市和公共安全等领域的时空数据,结合深度学习技术,开创解决以往无法解决的问题的新机遇并提出未来的研究需求。
Oct, 2023
本文通过问卷调查的方式,探究了大数据在教育机构中的应用以及采用大数据和分析技术时的制约因素。
Jul, 2022
介绍了大规模危机数据分析的历史、未来及其应用前景,包括帮助有效应对自然灾害等方面的讨论。
Feb, 2016
本文研究了数据异质性问题如何影响机器学习算法的预测能力和公平性,并提出了可用预测异质性的估计方法和优化算法,实验证明对于收入预测、作物产量预测和图像分类等任务,挖掘数据异质性能够提升模型的泛化能力和公平性。
Apr, 2023
介绍了如何建立大规模数据集用于机器学习,提出了处理数据瓶颈问题的分类方法,旨在提高社区对这些方法的认识并促进资源的更有效利用。
Nov, 2022
本文探讨大数据管理的三个层面:技术、人和流程,并强调技术、人和流程对于大数据管理是有关键性作用的。
Jan, 2022
该论文探讨了统计过程如何设计以在计算能力上可扩展以处理大规模的数据集,重点考虑了分而治之的方法和基于凸松弛的层次结构等算法以及它们对统计学的影响。
Sep, 2013
数字革命已经导致了人类行为的数字化,出现了众筹和众包等新增的行,这给营销研究和实践者带来了前所未有的机会,但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题,开发了计算方法以管理与消费者行为相关的 “大数据” 等技术,特别是机器学习,使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术,旨在将计算社会科学应用于理解和利用公开的消费者数据。
Jun, 2023