大型语言模型可以评估新闻媒体的可信度
利用大型语言模型(LLMs),本文研究了识别误导性与非误导性新闻标题的效果。研究发现模型性能存在显著差异,ChatGPT-4 在一致标注者就误导性标题达成一致意见的情况下表现出更准确的结果。文章强调了人本评估在开发 LLMs 中的重要性,旨在将技术能力与细腻的人类判断力相结合。研究结果对 AI 伦理问题具有借鉴意义,强调了在技术先进的同时,还需要考虑伦理道德和人类解读的微妙性。
May, 2024
自动事实核查(使用机器学习来验证主张)已经变得至关重要,因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型(LLMs),如 GPT-4,越来越受人们的信任,可以验证信息并撰写学术论文、诉讼文件和新闻文章,强调了它们在分辨真假和能够验证其输出的重要性。在这里,我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是,在我们的框架中,代理人解释他们的推理并引用检索到的相关来源。我们的结果显示,在配备上下文信息的情况下,LLMs 表现出更强大的能力。GPT-4 优于 GPT-3,但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景,但仍需要谨慎使用,因为准确性不一致。我们的调研呼吁进一步研究,以更深入地了解代理人何时成功以及何时失败。
Oct, 2023
本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现,这些模型在真伪辨别方面的平均得分为 65.25,其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势,得分为 71。然而,与人类事实核查员的表现相比,AI 模型尽管有前途,但在理解新闻信息中固有的细微差别和上下文方面落后。因此,本研究强调了 AI 在事实核查领域的潜力,同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。
Jun, 2023
自然语言处理和大型语言模型在近期取得了显著进展,然而,大型语言模型常常会出现 “幻觉”,导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题,显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性,以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器,与人类判断具有强相关性,至少在维基百科领域。令人惊讶的是,在我们的研究中,最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器,甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。
Oct, 2023
通过与搜索引擎进行对比实验证明,大型语言模型虽然能提高事实核查的效率,但在解释错误的情况下容易让用户过分依赖,因此在高风险环境中不宜将其作为阅读检索内容的可靠替代品。
Oct, 2023
对大型语言模型在安全和隐私(S&P)领域中提供可靠建议的能力进行了研究,发现平均错误率为 21.3%,当用相同或释义的误解进行多次查询时错误率增至 32.6%;研究还揭示,模型可能部分支持错误观点或不表态,且提供的信息源包括无效的 URL 和无关的来源。
Oct, 2023
本研究比较分析了两个大型语言模型(LLM)聊天机器人 ——ChatGPT 和 Bing Chat(现在已更名为 Microsoft Copilot)在检测政治信息真实性方面的能力。通过使用人工智能审计方法,我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上,研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示,比较聊天机器人在高资源语言和低资源语言环境下的表现。此外,我们利用定义为导向的提示,探索了聊天机器人按照政治传播概念(如虚假信息、错误信息和阴谋论)对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响,通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示,ChatGPT 在基准真实性评估任务中表现出较高的性能,在没有预训练的情况下,在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示,并且如何根据政治传播概念调整其评估,ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后,我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力,但也指出了由于特定因素(如提示语言或话题)导致其潜力实现方式的重大差异。
Dec, 2023
通过扩充大语言模型 (ChatGPT) 的事实核查,重新审视了由人类记者验证的现有虚假新闻数据集,并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力,为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。
Dec, 2023