大数据和算法处理促进科学进步,但需要研究算法处理和认知工具的发展,以及如何在科学领域中进行有效的数据分析和模拟,以推进科学发现的速度和准确性。
Apr, 2016
本文研究了数据的时效性对机器学习模型准确性和商业价值的影响,发现随着时间的推移,数据的价值会递减,与此同时包括更多的过时数据可能会降低模型的准确性,并提出了在历史数据与新数据之间寻求平衡的增长策略。
Mar, 2022
本文探讨大数据管理的三个层面:技术、人和流程,并强调技术、人和流程对于大数据管理是有关键性作用的。
Jan, 2022
我们提出了一项以任务为导向的知识检索研究议程,利用计算模型和人工智能技术,摄取科学知识的典籍,检索灵感、解释、解决方案和证据,直接增强人类在科学领域突出任务上的表现,进而革命性地推动科学进程。
May, 2022
InfoGrowth 是一个高效的在线算法,用于数据清洗和选择,可以提高单模态和多模态任务的数据质量和效率,具有实用的可扩展性。
May, 2024
数据集在科学发现过程中的组织和应用至关重要,也应该成为任何知识密集型过程中的一等公民,并且应该引起人们对数据集生命周期的重视和关注,尤其是在使用人工智能方法来探索科学知识时。
Mar, 2023
本文研究了数据学习环境中机械化应用规则与情境性抉择之间的关系,阐述了数据视力的重要性并讨论了其对数据分析学习、研究和实践的作用。
Feb, 2020
调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战,特别关注数据获取、标注和模型优化三个方面,提供技术选择建议,并指出有待研究的问题。
Nov, 2018
研究比较不同的 Reddit 主题下,数据的时间依赖性变化,指出数据价值的快速衰减将改变企业获取竞争优势的策略,强调提高用户参与度和增加用户基础有助于创造和维护竞争优势。
介绍了一种能应对大规模非结构化数据及 NLP 场景以及数据挖掘非技术层面问题的 D2V 方法论