利用大型语言模型纠正社交媒体的错误信息
使用新的方法解决 GPT-4 等大型语言模型在处理模糊或缺乏背景信息的陈述时的不确定性,并通过基于 LIAR-New 数据集的分类标签提出一个可适用于跨领域内容的框架来解析丢失的信息。我们利用这个框架生成有效的用户查询,相比基准方法,我们的方法提高了用户可回答的问题的比例 38 个百分点,宏观 F1 分类性能提高了 10 个百分点以上。因此,该方法可能成为未来对抗虚假信息的有价值组成部分。
Jan, 2024
对多模态大型语言模型在事实检查方面的能力和局限性进行了系统评估,发现 GPT-4V 在识别恶意和误导性多模态论断方面表现出优越性能,具备解释不合理方面和潜在动机的能力,同时已有的开源模型存在强烈的偏见,并对提示非常敏感。这项研究为对抗虚假多模态信息和构建安全可靠的多模态模型提供了启示,据我们所知,这是第一次对多模态大型语言模型进行真实世界事实检查的评估。
Mar, 2024
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
Oct, 2023
本文研究了现代大型语言模型的潜在滥用问题,并探讨其对信息密集型应用的影响,特别是对开放式问题回答系统。我们建立了一个威胁模型,模拟了可能的滥用场景,证明了大型语言模型可以作为有效的错误信息产生器,导致开放式问题回答系统的性能显著降低。为了减轻大型语言模型生成的错误信息带来的危害,我们探索了三种防御策略:提示、错误信息检测和多数投票。尽管最初的结果显示这些防御策略具有有利趋势,但仍需要更多的工作来解决错误信息污染的挑战。我们的工作强调了进一步研究和跨学科合作的必要性,以应对大型语言模型生成的错误信息,促进大型语言模型的负责任使用。
May, 2023
使用大型语言模型检测科学报道中的虚假信息,针对缺乏明确标签的情况,提出了多种基于大型语言模型的基准架构和提示方法,包括零样本、少样本和连贯思维提示等。
Feb, 2024
大型语言模型在虚假信息检测任务中的性能研究显示,多样的启发式方式和多个实例学习策略可以提高大型语言模型在文本和传播结构理解方面的检测性能,突出了大型语言模型检测虚假信息的潜在能力。
Nov, 2023
通过多轮检索策略从网络源自动抽取关键证据进行主张验证的检索增强 LLMs 框架是第一种能自动地并有目的性地从网页信息中提取关键证据的框架,通过在三个现实世界数据集上进行全面的实验证明了该框架对现有方法的优越性。重要的是,我们的模型不仅提供准确的结论,还提供可读的解释,以提高结果的可解释性。
Mar, 2024
大语言模型(LLM)的出现具有革命性的影响。然而,像 ChatGPT 这样的 LLM 是否可能被滥用来生成误导信息,对在线安全和公众信任构成了严重关注。我们从检测难度的角度提出了一个基本的研究问题:LLM 生成的误导信息是否比人类编写的误导信息具有更大的危害性?通过我们的实证研究,我们发现相比于具有相同语义的人类编写的误导信息,LLM 生成的误导信息对于人类和检测器来说更难以检测,这表明它可能具有更具欺骗性的风格,并有可能造成更大的伤害。我们还讨论了我们发现对抗 LLM 时的误导信息在信息时代和相应对策的影响。
Sep, 2023
对大型语言模型在安全和隐私(S&P)领域中提供可靠建议的能力进行了研究,发现平均错误率为 21.3%,当用相同或释义的误解进行多次查询时错误率增至 32.6%;研究还揭示,模型可能部分支持错误观点或不表态,且提供的信息源包括无效的 URL 和无关的来源。
Oct, 2023
利用会话式引导工程的大型语言模型来对抗数字虚假信息,通过扩展 RumourEval 任务的研究努力,从事推特数据集的真实性预测和立场分类,以 AI 社会公益为主要目标。
Apr, 2024