- 大规模语言模型应用的词汇攻击
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模 - 通过音频分析辨别信哈拉语 YouTube 视频中的虚假内容和仇恨言论
为了解决 YouTube 在全球范围内传播虚假信息和仇恨言论的危机,本研究针对 Sinhala 语 YouTube 视频提出了一个解决方案,通过比较标题、描述和音频内容,评估视频是否包含虚假信息,并检测其中是否包含仇恨言论,以减少暴力和谣言 - 信赖生成 AI:聊天机器人能有效验证政治信息吗?
本研究比较分析了两个大型语言模型(LLM)聊天机器人 ——ChatGPT 和 Bing Chat(现在已更名为 Microsoft Copilot)在检测政治信息真实性方面的能力。通过使用人工智能审计方法,我们在 COVID-19、俄罗斯对 - 虚假信息、机器人和恶意活动:揭秘社交媒体操纵要素
该研究综合来自不同学科的观点,全面分析了社交媒体操纵的景观,包括虚假信息、机器人和恶意活动,强调了跨学科研究有效打击社交媒体操纵的紧迫性,并为未来的研究提供指导。
- BotArtist:基于 Twitter 封禁的机器学习模型的 Twitter 机器人检测
采集了一份大规模的多语言社交话语 Twitter 数据集,并通过 Twitter API 和 Botometer 提供的已带标签的 Twitter 账号数据集与另外两个热门话题(即 2022 年能源危机和阴谋论讨论)来检测 Twitter - 一滴墨汁或可引发百万思考:大型语言模型中虚假信息扩散
本研究探究了虚假信息在大语言模型中的传播机制及其对模型响应的影响,结果表明:虚假信息会通过语义扩散传播并污染相关记忆;大语言模型更容易受到权威偏见的影响;在上下文注入下,大语言模型对虚假信息更敏感。这些结果表明有必要研究新的抵御虚假信息的算 - 看不见的不一定是不存在的:人类对人工智能生成的图像的感知的定量研究
本研究探究当前最先进的基于人工智能技术的视觉内容生成模型是否可以始终欺骗人类眼睛和传达错误信息,并通过高质量的定量研究揭示,人类不能在很大程度上区分真实的照片和人工智能创造的虚假照片。
- 利用 MLP 和 LSTM 的混合式 Deepfake 检测
该研究提出了使用两个深度学习算法(LSTM 和 MLP)的新 deepfake 检测模型,并使用 140k 真实和虚假面孔数据集评估其在检测 deepfake 图像中的表现,最高可达 74.7% 的准确率。
- 社交网络中检测谣言的可解释化模态框架
本文介绍了一种基于多模态视角的自动虚假信息检测方法,提出了一种基于可解释性方法的虚假信息分类框架,从而增加决策的可解释性和完整性。
- 虚假信息和事实核查生态系统的图形模型
该研究提出了描述复杂的虚假信息与事实核查生态系统的图形模型,该模型可用于研究在线虚假信息和事实核查的效果,易于实践者和研究者使用,传统媒体和用户生成内容也在多种语境下涉及。
- 预测新闻的方法 —— 一种精确的多层 LSTM 网络与 BERT
本篇研究基於 V-Dem 概念框架的政治資料庫,藉由使用預測模型,成功將 28358 則新聞文章中的假新聞剖析出來,並指出台灣是被外國政府傳遞假消息最嚴重的國家之一,希望藉由此成果,未來可以開發自動化演算法減輕人工分析的負擔與降低假消息的傳 - ACL误信息和假新闻辨别中的立场检测综述
该论文旨在研究和分析既包括事实检查和谣言检测,也包括偏见检测和情感分析的不同类别和方法之间的联系,重点关注在检测虚假信息及其分化方面的已有工作,并讨论了未来的挑战。
- ACL使用变换器识别自动生成的标题
通过构建含有人工和计算机生成的标题数据集,研究表明人类只有 47.8% 的准确率识别出虚假标题,而应用于语言模型的 Transformers 却达到了 85.7% 的整体准确率,说明目前的自然语言生成模型可以被识别出来。
- SIGIR实时从新闻文章中检测索取含义相似的事实核查
本研究提出使用自然语言处理技术来提高事实核查的效率,从而解决新闻界预算紧缩和虚假信息不断蔓延的问题。该方法能够将待核查信息与已有语料库进行比对,返回相似、已经过事实核查的信息,从而实现多人同时核查而不重复工作。
- 网络和社交媒体上的虚假信息:一项调查
本文对虚假信息的不同方面进行了全面调研,包括虚假信息传播的行为者、成功欺骗读者的理由、虚假信息的影响和特征、检测虚假信息的算法以及未来的研究方向。
- 信息(误)时代的集体注意力
本研究通过对 230 万个 Facebook 用户的样本进行研究,研究了他们在意大利选举期间边缘政治和新闻讨论中消耗的不同信息。我们发现,尽管信息的质量不同,关注模式是相似的,意味着未经证实的声明(主要是阴谋论)会持续反响。最后,我们根据用