Multiverse: 多语种的虚假新闻检测证据
本研究提出了一种基于终身学习和多语言知识转移的新型假新闻检测方法,该方法利用传统特征提取器和深度自然语言处理模型结合多层感知器分类器,可以在英语和西班牙语数据集上提高假新闻分类任务的性能。
May, 2022
本文介绍了一种利用已经被 fact-check 过的英文新闻数据集,通过建立一个名为 CrossFake 的深度学习框架来识别汉语低資源下的 COVID-19 虚假信息。经实验结果表明,CrossFake 在跨语言环境下的情况下比其他单语和跨语言虚假信息检测器更有效。
Oct, 2021
本研究提出了一种利用高资源语言训练数据来检测低资源语言中的假新闻的方法,采用对抗学习技术来实现跨语言的检测知识转移,同时利用源信息提高文章可靠性并通过跨语言特征来提高假新闻检测系统的准确性。经实验证明,此方法可以使假新闻检测系统比使用机器翻译训练数据的系统提高 3.71% 的准确率,并将跨语言特征的应用提高了 3.03% 的准确率。
Aug, 2022
本研究介绍了一种新的自动检测跨领域新闻中虚假消息的技术,该技术整合了领域特定和跨领域知识,并利用一种无监督的选择性注释技术来减少标注成本,并在跨领域的新闻数据集上实现了最先进的性能。
Feb, 2021
通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架,通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是,我们的模型不仅提供准确的结论,还提供可读的解释,以提高结果的可解释性。
Mar, 2024
为了更好地应对 COVID-19 假新闻,我们提出了一个新的假新闻数据集 MM-COVID(多语言和多维 COVID-19 假新闻数据存储库),该数据集提供了多语言假新闻和相关社会背景。我们从不同角度对 MM-COVID 进行了详细的探索性分析,展示了在 COVID-19 假新闻研究的多语言和社交媒体的几个潜在应用方面的实用性。
Nov, 2020
本文研究了大型语言模型时代中的假新闻检测问题,发现仅训练于人工编写文章的检测器在检测机器生成的假新闻方面表现良好,但反之不成立。此外,由于检测器对机器生成的文本存在偏见,需要在训练集中使用比测试集中较低比例的机器生成新闻。基于我们的发现,我们提供了一个实用的策略来开发健壮的假新闻检测器。
Nov, 2023
在大语言模型 (LLMs) 时代,我们发现许多现有的假新闻检测器存在显著偏见,更容易将 LLMs 生成的内容标记为假新闻,而常常误将人类撰写的假新闻分类为真实。为了解决这个问题,我们引入了一种对抗训练与 LLMs 重写的真实新闻相结合的缓解策略,从而在人类和 LLMs 生成的新闻的检测准确性方面取得了显著的改进。为了进一步推动该领域的研究,我们发布了两个全面的数据集 “GossipCop++” 和 “PolitiFact++”,将经人工验证的文章与 LLMs 生成的假新闻和真实新闻相结合。
Sep, 2023
本文提出了三种基于多模态 transformer 的假新闻检测模型,并通过深入分析操纵数据的方法来探索这些模型在社交媒体上实际使用情况下的性能。研究发现,这些系统在面临被操纵的数据时会出现显著性能下降。为了减少偏差并改善模型的推广能力,本文建议使用数据增强技术对社交媒体上的假新闻检测进行更有意义的实验。所提出的数据增强技术使得模型的泛化能力得到了提高,并获得了最先进的效果。
May, 2023