结合神经网络、统计和外部特征在假新闻识别中的益处
本研究利用深度神经网络结合字符串相似度特征,对假新闻检测问题进行了研究,主要包括利用各类神经网络对新闻标题及新闻文章进行编码表示、相似性比较,并探索利用预训练等额外信息的效果,结果表明,在假新闻检测上,该模型略优于之前的最优模型。
Nov, 2018
本文介绍了 Fake News Challenge stage #1 (FNC-1) 数据集并概述了使用该数据集构建伪新闻检测系统的竞争尝试。通过使用不同的自然语言处理技术处理标题和正文文本,提取特征并使用软余弦相似性方法计算相似度。该系统使用深度学习方法进行分类,除了 “disagree” 类别外,其余类别均达到高准确性,最终分类准确率达到 84.6%,在该数据集上排名第二。
Oct, 2022
提出了两种基于深度学习的模型,用于在多个领域的在线新闻内容中解决虚假新闻检测问题,并在 FakeNews AMT 和 Celebrity 两个数据集上评估,取得了很好的性能并超过了当前最先进的基于手工特征工程的系统。同时,进行了跨领域分析以探索系统在不同领域的适用性。
May, 2020
本研究旨在探索如何使用大规模深度双向转换器语言模型来准确识别包含虚假信息的新闻文章,通过使用 RoBERTa 深度双向转换器语言模型进行预训练后构建了一个大规模语言模型,在 Fake News Challenge 阶段 1 基准测试中实现了 90.01%的加权准确度,表明了在处理虚假信息识别方面,大规模语言模型可以作为强有力的构建块。
Nov, 2019
这篇研究通过多种神经和非神经预处理以及风格转移技术,消除了假新闻检测模型中情感、情绪、词性等易受攻击的指标,从而推断出这些模型中可能隐藏着可操纵的信号,并通过情感向量模型构建进一步证明了这一假设。
Apr, 2022
本研究提供了一种端到端模型,该模型可对文字主张进行证据感知的可信度评估,不需要任何人类干预,并通过聚合来自外部证据文章的信号,这些文章的语言以及其来源的可信度来生成用户可理解的解释,从而提高了之前工作的局限性,实验证明其有效性。
Sep, 2018
我们使用自然语言处理方法对 1876 条新闻数据进行预处理,通过训练模型将假新闻和真实新闻进行分类,最终通过 Naive Bayes 分类器得出 56% 的准确率和平均 32% 的 F1-macro 得分。
Sep, 2023
使用机器学习算法分析媒体新闻的语言特征,以区分真假新闻,主要解决神经假新闻生成、机器生成的标题、文本和图像标题之间的语义矛盾等问题。同时提出应用特征集和类别、特征之间的相关性计算相关属性评估指标和计算属性变量的协方差指标来模拟这些问题。其中独特、负面、积极和基数数字特征在度量中得分高,能够提供高的 AUC 和 F1-score。
Nov, 2022
通过使用出版商元数据以隐含发布者的模板、文本类型、政治立场和可信度,我们提出了一种新颖的验证框架 Style-News,用于防止有害的虚假信息从恶意社交媒体传播,同时通过识别风格与出版商对应以及区分给定新闻的来源是人类撰写还是机器生成,我们训练了一个适应特定出版商生成新闻内容的风格感知神经网络生成器和风格和来源鉴别器。通过整合各种维度指标(语言流畅性、内容保留性和风格遵循性)评估生成内容的质量,我们证明了 Style-News 在流畅性上超过了以前的方法 0.35,内容上高出 15.24,风格上高出 0.38 的幅度。此外,我们的鉴别模型在发布者预测(高达 4.64%)和神经假新闻检测(+6.94%~31.72%)方面优于最先进的基准模型。
Jan, 2024