基于主题的方法用于将垃圾邮件分类为多个类别,作者提出了两个新数据集,对其进行了标记,并评估了不同特征表示技术和分类器的性能。实验结果表明,英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归,而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。
Feb, 2024
本文表明,即使仅使用经过过滤和去重的网络数据,也可以训练出性能良好的大型语言模型,其训练数据量可以达到万亿级别,不需要过多地依赖于高质量的非网络数据的训练数据集。
Jun, 2023
提出了一种在线解决方案,用于识别和解释垃圾评论,包括数据漂移适应,达到了 87% 的垃圾评论 F-measure。
Jun, 2024
本研究通过研究多种主动学习策略,探究了不依赖系统排名的文献选择方法,以及对未标记文献进行自动分类的两种方法;并在五个具有不同相关文献稀缺程度的 TREC 数据集上进行了实验研究,其结果表明了我们的方法的有效性,同时分析了在不同数据集上,相关文献稀缺性对结果的影响,为了支持进一步的工作和再现性,因此我们将我们的代码在线分享了。
Jan, 2018
论文研究了神经排序中标记相关性判定数量巨大的问题,并提出使用弱监督来源训练排名器,然后使用过滤技术排除域外样本,实现了有效的性能改进。
Jul, 2017
使用机器学习模型对 URL 进行分类,研究发现 bagging 方法在垃圾邮件识别方面具有 96.5% 的准确率。
Sep, 2023
本文介绍了一个与 TREC 深度学习赛文献语料库相关的点击数据发布,通过初步实验,利用点击数据扩充 TREC DL 训练数据的效果达到了较大改善,该数据集的生成过程、特点、在排名中的应用以及其他潜在应用均有描述。
Jun, 2020
ClueWeb22 是一个高质量的、大规模的 Web 语料库,旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。
Nov, 2022
本研究提出一种新方法将机器学习与消息传递算法相结合,采用主动学习方式进行标签采样,用于判别评论者是垃圾评论者还是正常评论者,并在三大真实数据集中进行实验,证明其在机器学习方法和标签数据较少情况下性能优越。
May, 2022
该研究介绍了 TREC Fair Ranking 跟踪项目,实现了服务于不同内容提供商公平性和相关度的基准评估,发布了一个数据集,目标是要公正地呈现来自多个未知组的相关作者的重要性,重点关注能够在各种组别定义下表现出强大性能的系统的开发。
Mar, 2020