Jun, 2023

新闻验证者对决:ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

TL;DR本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现,这些模型在真伪辨别方面的平均得分为 65.25,其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势,得分为 71。然而,与人类事实核查员的表现相比,AI 模型尽管有前途,但在理解新闻信息中固有的细微差别和上下文方面落后。因此,本研究强调了 AI 在事实核查领域的潜力,同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。