我们应该相信网络抓取的数据吗？

Aug, 2023

我们应该相信网络抓取的数据吗？

Should we trust web-scraped data?

Jens Foerderer

TL;DR通过网页抓取收集数据的方法存在抽样偏差，本研究指出网页抓取数据存在抽样偏差的三个原因，并通过一系列实例揭示抽样偏差的普遍性和严重性，同时提供了关于如何预测、检测和克服抽样偏差的建议。

Abstract

The increasing adoption of econometric and machine-learning approaches by empirical researchers has led to a widespread use of one data collection method: →

econometric machine-learning web scraping sampling bias data collection method

发现论文，激发创造

Web 数据提取、应用和技术：一项调查

本文综述了 Web 数据提取的现有应用，并将其分成企业级和社交 Web 级别，讨论了其在商业智能和数据分析中的重要性以及用于收集和分析结构化数据在社交媒体上的潜力。

Jul, 2012

网页抓取的医疗服务

网络爬虫技术可以帮助医疗保健提高患者护理、监测医疗服务质量和辨识改进领域，尤其可用于医疗行动范畴来确定最有效的护理方式，如收集患者症状和医史信息，或收集最新的医学研究和临床试验。

Jun, 2023

神经网络网页抓取的更清洁预训练语料库的筛选

本文介绍了一种简单、快速、有效的神经网络网页抓取器（NeuScraper），用于从网页中提取主要和干净的文本内容，并通过实验结果显示 NeuScraper 相比基线抓取器的改进超过了 20%，展示了其在提取高质量数据以促进语言模型预训练方面的潜力。

Feb, 2024

网络使用数据预处理方法的调查

本文探讨了数据挖掘技术在网络数据中的应用，其中 Web 使用挖掘是通过挖掘日志数据中的行为，用于各种应用，如个性化服务，适应性网站，客户概要文件，预取，创建有吸引力的网站等。本文总结了现有的预处理技术，并讨论了用于发现模式和模式分析的各种数据挖掘技术。最后简要介绍了 Web 使用挖掘的各种应用。

Apr, 2010

大学生报纸中的无监督偏差检测

该论文介绍了一种几乎没有人为干预的流程，用于抓取和检测大学报纸档案中的偏见。该论文介绍了一种框架，用于从自动化工具无法获取数据的复杂档案网站中进行抓取，并生成了 14 份学生论文的数据集，总共含有 23,154 个条目。该数据还可以通过关键词查询，通过比较大型语言模型摘要和原始文章的情绪来计算偏见。该方法具有较少的比较性，比重建偏见更少地需要有标签的数据。结果基于具有政治色彩的词汇以及控制词汇来计算，以展示如何得出结论。这种完整的方法有助于从学生报纸来源中提取细微的见解，且假设和分类最少，为更客观地理解偏见铺平了道路。

Sep, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

不可信来源中的健壮学习

该研究通过统计学习理论视角研究了机器学习中如何从分布式、众包等外部数据源中进行稳健学习，提出了一种通过自动抑制无关或损坏数据的过程，并通过实验证明其比鲁棒统计和分布式优化的替代方法具有更高的精度和准确性。

Jan, 2019

机器学习与消费者数据

数字革命已经导致了人类行为的数字化，出现了众筹和众包等新增的行，这给营销研究和实践者带来了前所未有的机会，但同时也面临着数据过于庞杂和复杂的挑战。为了解决这些问题，开发了计算方法以管理与消费者行为相关的 “大数据” 等技术，特别是机器学习，使得对多方面数据的有效解析和处理成为可能。本文综述了新的数据来源和分析技术，旨在将计算社会科学应用于理解和利用公开的消费者数据。

Jun, 2023

新闻文章中的政治偏见量化

本文旨在建立一种自动模型，评估在线新闻文章的意识形态偏见，结果表明目前的自动模型能力不足以被用于自动注释文档，进而计算搜索结果中的偏见。

Oct, 2022

维基贡献者的模拟、建模与分类：辨别优秀、恶劣和丑陋

本文提出了一种模拟、建模和分类的方法来自动识别数据伪造，以平衡实验数据集中的类，构建和更新贡献者配置文件，并进行自动数据流分类，该方法在使用基于维基旅行的测试平台上表明显著提高分类器的可信度和质量，将恶意和良性机器人与人类贡献者区分度达到 92% 分类准确度。

May, 2024