我们应该相信网络抓取的数据吗?
本文综述了 Web 数据提取的现有应用,并将其分成企业级和社交 Web 级别,讨论了其在商业智能和数据分析中的重要性以及用于收集和分析结构化数据在社交媒体上的潜力。
Jul, 2012
网络爬虫技术可以帮助医疗保健提高患者护理、监测医疗服务质量和辨识改进领域,尤其可用于医疗行动范畴来确定最有效的护理方式,如收集患者症状和医史信息,或收集最新的医学研究和临床试验。
Jun, 2023
本文介绍了一种简单、快速、有效的神经网络网页抓取器(NeuScraper),用于从网页中提取主要和干净的文本内容,并通过实验结果显示 NeuScraper 相比基线抓取器的改进超过了 20%,展示了其在提取高质量数据以促进语言模型预训练方面的潜力。
Feb, 2024
本文探讨了数据挖掘技术在网络数据中的应用,其中 Web 使用挖掘是通过挖掘日志数据中的行为,用于各种应用,如个性化服务,适应性网站,客户概要文件,预取,创建有吸引力的网站等。本文总结了现有的预处理技术,并讨论了用于发现模式和模式分析的各种数据挖掘技术。最后简要介绍了 Web 使用挖掘的各种应用。
Apr, 2010
该论文介绍了一种几乎没有人为干预的流程,用于抓取和检测大学报纸档案中的偏见。该论文介绍了一种框架,用于从自动化工具无法获取数据的复杂档案网站中进行抓取,并生成了 14 份学生论文的数据集,总共含有 23,154 个条目。该数据还可以通过关键词查询,通过比较大型语言模型摘要和原始文章的情绪来计算偏见。该方法具有较少的比较性,比重建偏见更少地需要有标签的数据。结果基于具有政治色彩的词汇以及控制词汇来计算,以展示如何得出结论。这种完整的方法有助于从学生报纸来源中提取细微的见解,且假设和分类最少,为更客观地理解偏见铺平了道路。
Sep, 2023
该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习,提出了一种通过自动抑制无关或损坏数据的过程, 并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。
Jan, 2019
数字革命已经导致了人类行为的数字化,出现了众筹和众包等新增的行,这给营销研究和实践者带来了前所未有的机会,但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题,开发了计算方法以管理与消费者行为相关的 “大数据” 等技术,特别是机器学习,使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术,旨在将计算社会科学应用于理解和利用公开的消费者数据。
Jun, 2023
本文提出了一种模拟、建模和分类的方法来自动识别数据伪造,以平衡实验数据集中的类,构建和更新贡献者配置文件,并进行自动数据流分类,该方法在使用基于维基旅行的测试平台上表明显著提高分类器的可信度和质量,将恶意和良性机器人与人类贡献者区分度达到 92% 分类准确度。
May, 2024