通过网页抓取收集数据的方法存在抽样偏差,本研究指出网页抓取数据存在抽样偏差的三个原因,并通过一系列实例揭示抽样偏差的普遍性和严重性,同时提供了关于如何预测、检测和克服抽样偏差的建议。
Aug, 2023
本文综述了 Web 数据提取的现有应用,并将其分成企业级和社交 Web 级别,讨论了其在商业智能和数据分析中的重要性以及用于收集和分析结构化数据在社交媒体上的潜力。
Jul, 2012
本文介绍了一种简单、快速、有效的神经网络网页抓取器(NeuScraper),用于从网页中提取主要和干净的文本内容,并通过实验结果显示 NeuScraper 相比基线抓取器的改进超过了 20%,展示了其在提取高质量数据以促进语言模型预训练方面的潜力。
Feb, 2024
本文探讨了数据挖掘技术在网络数据中的应用,其中 Web 使用挖掘是通过挖掘日志数据中的行为,用于各种应用,如个性化服务,适应性网站,客户概要文件,预取,创建有吸引力的网站等。本文总结了现有的预处理技术,并讨论了用于发现模式和模式分析的各种数据挖掘技术。最后简要介绍了 Web 使用挖掘的各种应用。
Apr, 2010
本文全面调查了医学总结当前技术和趋势,重点关注互联网对医疗保健行业产生的影响,以及通过深度学习与基于 Transformer 的网络,对医学数据的总结和归纳带来的显著性提升。
Dec, 2022
本文分析和研究了使用最新技术(如大数据、人工智能、机器学习和深度学习)改善医疗保健的不同方法,提出了基于收集、预处理和聚类医疗数据的一般方法,以在可观的时间范围内预测最常见的病理。
Apr, 2023
医疗环境中存在大量且多样化的数据,然而仅有少部分文本化电子健康数据被处理和解释,这导致了大数据操作的困难,研究致力于分析医疗领域的术语、自然语言处理和深度学习技术,以期提出相关解决方案。
Jan, 2024
本综述旨在调查基于患者路径或轨迹的新型研究领域,重点关注路径的表示模型、挖掘技术、分析方法和案例研究,并讨论了采集大量患者的电子医疗数据的挑战。
Jun, 2022
本文介绍了通过数据科学中的过程挖掘技术对 Uniklinik Aachen 医院 COVID-19 患者的医疗数据进行分析,以及成功实现 ICU 治疗模型的重建。
Feb, 2022
该研究提出了一种从医学文献中的表格中提取数值和文本信息的方法,包括表格检测、功能处理、结构处理、语义标记、语用处理、单元选择和句法处理等七个步骤,F - 度量值范围在 82% - 92% 之间.
Feb, 2019