利用文本、社交媒体和网页网络对不可靠网站进行分类和识别

Jun, 2024

利用文本、社交媒体和网页网络对不可靠网站进行分类和识别

Dredge Word, Social Media, and Webgraph Networks for Unreliable Website Classification and Identification

Evan M. Williams, Peter Carragher, Kathleen M. Carley

TL;DR通过综合使用网络图和大规模社交媒体语境，我们探讨了将 Web 图和社交媒体上下文纳入网站可信度分类和发现系统的影响。同时，通过学术实验，我们证明了利用多层异构图神经网络模型，结合 Web 图和社交媒体数据的上下文，可以优于单一模式方法。该研究还展示了在我们的模型中加入 dredge words（指与不可靠域高排名相关的术语或短语）可以将不可靠网站与社交媒体和在线商务平台强相关联。最终，我们的异构模型在无标签不可靠网站的 top-k 识别中远超竞争系统。我们的研究揭示了用户发现不可靠内容的多样路径中存在强烈的不可靠性信号，并发布了一份新颖的 dredge words 数据集。

Abstract

In an attempt to mimic the complex paths through which unreliable content spreads between search engines and social media, we explore the impact of incorporating both →

unreliable content webgraph social media dredge words website credibility

发现论文，激发创造

利用社交互动识别社交媒体上的错误信息

在 COVID-19 疫情期间，使用多输入（MI）框架将社交媒体文本特征和网络信息特征结合起来，提高了检测不可靠信息的模型的准确性。

Apr, 2023

利用异质社交媒体上下文图探究虚假新闻检测

通过构建多种异质社交上下文图并将问题重新定义为图分类任务，本文提出了一种高效的方法来检测虚假新闻，并在常见基准数据集上获得了鲁棒的结果，研究成果表明将不同类型的信息（以获得何种社交上下文水平最有效）与使用不同的图形神经网络架构相结合非常有效。

Dec, 2022

虚假网站：追踪虚假新闻故事的传播与影响力

自动化系统用于跟踪网上平台上的新闻叙事，识别其中的流行叙事，并发现并分析最有影响力的网站和新兴叙事，有助于更快地解决不实信息。

Aug, 2023

面向解释性虚假信息检测的联动可信度审查

本文提出了一种基于可信度评估的体系架构，用于建立分布式机器人网络协同实现误传信息检测，并且通过使用 Schema.org 扩展和 NLP 技术实现语义相似性和态度检测，有效地提高了可伸缩性、领域独立性、可组合性、可解释性和透明度，同时还在 Clef'18 CheckThat! Factuality 任务上取得了新的明显的效果。

Aug, 2020

带有敌对训练和图嵌入的域适应

该论文研究了如何对社交媒体上的帖子进行分类，提出了一种新模型，基于对抗学习进行领域自适应，并依据基于图的半监督学习来利用未标记数据，实验表明与几个基准系统相比具有显著优势。

May, 2018

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

寻找可信新闻

本篇论文研究了如何在社交媒体中找出虚假新闻。作者提出了基于语言学、可信度、语义等各种特征来自动识别虚假新闻的方法，并使用三个不同的测试集测试了该方法，在高精度的情况下可以准确地区分真实新闻和虚假新闻。

Nov, 2019

在线新闻源的多源社交反馈

本文介绍了一个大型数据集，旨在为预测分析任务提供评估比较的基准数据，并涵盖了新闻内容、社交反馈等信息以及经济、微软、奥巴马和巴勒斯坦等四个主题。

Jan, 2018

社交媒体作为即时水质反馈渠道

本研究旨在通过使用社交媒体的数据作为及时反馈，探究社交媒体作为水质监测的潜在价值，同时提出了一个使用多个神经网络结构的框架来分析与检索与水质相关的社交媒体帖子，其中最高的 F1-score 值为 0.81，而总体融合结果最高的 F1-score 值为 0.852。

Feb, 2022

实时揭露与解释虚假新闻

该研究提出了一种可解释和在线的分类方法，结合无监督和有监督的机器学习方法，使用自然语言处理技术基于创建者、内容和上下文的特征，识别和解释社交媒体中的虚假新闻，并通过数据流处理提供实时的早期检测、隔离和解释，从而提高社交媒体内容的质量和可信度。

May, 2024