大规模网络数据的高效和有效垃圾邮件过滤和重新排序

Apr, 2010

大规模网络数据的高效和有效垃圾邮件过滤和重新排序

Efficient and Effective Spam Filtering and Re-ranking for Large Web Datasets

Gordon V. Cormack, Mark D. Smucker, Charles L. A. Clarke

TL;DR本文介绍了一种使用自然语言处理技术针对 ClueWeb09 数据集进行垃圾信息过滤与提高信息检索效果的方法。

Abstract

The trec 2009 web ad hoc and relevance feedback tasks used a new document collection, the clueweb09 dataset, which was crawled from the general Web in early 2009. This dataset contains 1 billion web pages, a subs

trec 2009 web ad hoc clueweb09 dataset spam detection content-based classifier information retrieval

发现论文，激发创造

利用凝聚层次聚类和基于主题的方法对垃圾邮件进行分类

基于主题的方法用于将垃圾邮件分类为多个类别，作者提出了两个新数据集，对其进行了标记，并评估了不同特征表示技术和分类器的性能。实验结果表明，英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归，而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。

Feb, 2024

使用网络数据，仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

本文表明，即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型，其训练数据量可以达到万亿级别，不需要过多地依赖于高质量的非网络数据的训练数据集。

Jun, 2023

在线检测及信息图解的垃圾评论与数据漂移适应

提出了一种在线解决方案，用于识别和解释垃圾评论，包括数据漂移适应，达到了 87% 的垃圾评论 F-measure。

Jun, 2024

通过主动学习实现高效测试集构建

本研究通过研究多种主动学习策略，探究了不依赖系统排名的文献选择方法，以及对未标记文献进行自动分类的两种方法；并在五个具有不同相关文献稀缺程度的 TREC 数据集上进行了实验研究，其结果表明了我们的方法的有效性，同时分析了在不同数据集上，相关文献稀缺性对结果的影响，为了支持进一步的工作和再现性，因此我们将我们的代码在线分享了。

Jan, 2018

面向信息检索的基于内容的弱监督再排序

论文研究了神经排序中标记相关性判定数量巨大的问题，并提出使用弱监督来源训练排名器，然后使用过滤技术排除域外样本，实现了有效的性能改进。

Jul, 2017

垃圾网址的机器学习分类方法

使用机器学习模型对 URL 进行分类，研究发现 bagging 方法在垃圾邮件识别方面具有 96.5% 的准确率。

Sep, 2023

ORCAS: 分析搜索的 1800 万点击查询文档对

本文介绍了一个与 TREC 深度学习赛文献语料库相关的点击数据发布，通过初步实验，利用点击数据扩充 TREC DL 训练数据的效果达到了较大改善，该数据集的生成过程、特点、在排名中的应用以及其他潜在应用均有描述。

Jun, 2020

ClueWeb22: 100 亿个带视觉和语义信息的网络文档

ClueWeb22 是一个高质量的、大规模的 Web 语料库，旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。

Nov, 2022

使用机器学习和基于网络的算法进行意见垃圾检测的新方法

本研究提出一种新方法将机器学习与消息传递算法相结合，采用主动学习方式进行标签采样，用于判别评论者是垃圾评论者还是正常评论者，并在三大真实数据集中进行实验，证明其在机器学习方法和标签数据较少情况下性能优越。

May, 2022

TREC 2019 公平排名任务综述

该研究介绍了 TREC Fair Ranking 跟踪项目，实现了服务于不同内容提供商公平性和相关度的基准评估，发布了一个数据集，目标是要公正地呈现来自多个未知组的相关作者的重要性，重点关注能够在各种组别定义下表现出强大性能的系统的开发。

Mar, 2020