利用自然语言处理技术进行点击诱饵分类和内容剧透识别
本文提出并研究了点击标题破坏的任务:生成一个短文本,满足点击标题帖子引起的好奇心。我们的贡献是分类所需破坏类型(即短语或段落),并生成适当的破坏内容。在新的 5000 篇手动破坏的点击标题帖子语料库上进行了大规模的评估和错误分析,结果显示我们的破坏类型分类器达到了 80%的准确率,而问答模型 DeBERTa-large 在生成两种类型的破坏内容方面表现出色。
Mar, 2022
本研究引入了 “点击诱饵破坏” 这一新技术,旨在检测、分类和生成剧透作为简洁的文本响应,以应对点击诱饵内容引发的好奇心。通过利用多任务学习框架,我们的模型的泛化能力得到了显著提升,有效解决了点击诱饵的普遍问题。我们研究的关键是生成适当的剧透,无论是短语、扩展段落还是多个剧透,具体取决于所需的剧透类型。我们的方法结合了两个关键技术:一个经过精细调整的剧透分类方法和一个修改过的问题回答机制,这两者都被纳入到多任务学习范式中,以优化从上下文中提取剧透。值得注意的是,我们还包含了对能处理更长序列的模型进行微调的方法,以适应扩展剧透的生成。本研究突出了复杂文本处理技术在解决点击诱饵这一无处不在的问题上的潜力,为数字领域的用户体验提供了改进。
May, 2024
提出了一种基于经过优化的大规模语言模型集合的点击诱饵剧透生成方法,不局限于短语或段落剧透,还能生成涉及文本中非连续部分的多部分剧透;实验评估结果表明,该集合模型在 BLEU、METEOR 和 BERTScore 指标上优于基准模型。
May, 2024
鉴于点击率欺骗事件的增多,我们构建了一个手动标记的印度尼西亚点击率欺骗语料库,并使用跨语言零 - shot 问题回答模型来解决印度尼西亚等低资源语言的点击率欺骗问题,实验结果表明,XLM-RoBERTa(large)模型在短语和段落的剧透方面优于其他模型,而 mDeBERTa(base)模型在多部分剧透方面优于其他模型。
Oct, 2023
通过文本摘要总结内容,并根据生成的摘要与内容之间的相似性进行 clickbait 检测,本文提出了一种基于提示调整的 clickbait 检测方法,该方法通过预训练语言模型产生高质量的新闻摘要,并将头条和新生成的摘要作为提示调整的输入,采用各种策略结合外部知识以提高 clickbait 检测性能。在知名 clickbait 检测数据集上的广泛实验表明,我们的方法达到了最先进的性能。
Apr, 2024
本研究旨在研究大语言模型是否适用于高质量的点击诱饵检测系统,并通过在多个英文和中文基准数据集上进行的实验结果表明,LLMs 不能实现与最先进的深度微调方式相比的最佳结果,对于检测点击诱饵文本,仅仅使用标题是不够的。
Jun, 2023
本研究提出了一种使用深度学习方法来检测 2017 年 Clickbait Challenge 数据集中的 clickbaits 的模型,同时利用数据分析和可视化技术探索和发现数据集中的信息。该模型在均方误差方面在 Clickbait Challenge 2017 中获得了第一名。
Jun, 2018
提出了一种基于神经网络,包括双向 LSTM、注意力机制、孪生网络及卷积神经网络的新型点击诱饵检测方法来预测社交媒体帖子的点击诱饵得分,在 19538 个社交媒体帖子的测试语料库上达到 65.37% 的 F1 得分,优于之前的工程学特征或其他方法。
Oct, 2017
本文介绍了一种基于循环神经网络的神经网络架构,用于检测新闻标题中的 'clickbait',该模型依靠从大型未注释的语料库中学习的分布式词表示和通过卷积神经网络学习的字符嵌入。在新闻标题数据集上的实验结果表明,这种方法表现优于现有的 'clickbait' 检测技术,具有 0.98 的准确率,0.98 的 F1 得分和 0.99 的 ROC-AUC 度量。
Dec, 2016
本研究是基于任务驱动面试方法,研究本科生如何使用包括文本数据在内的非结构化数据进行分类,并探究文本的特征,最终发现了三种类型的特征(功能,内容和形式),大部分在第一种情境中产生。
Jan, 2023