Dec, 2023

信赖生成 AI:聊天机器人能有效验证政治信息吗?

TL;DR本研究比较分析了两个大型语言模型(LLM)聊天机器人 ——ChatGPT 和 Bing Chat(现在已更名为 Microsoft Copilot)在检测政治信息真实性方面的能力。通过使用人工智能审计方法,我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上,研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示,比较聊天机器人在高资源语言和低资源语言环境下的表现。此外,我们利用定义为导向的提示,探索了聊天机器人按照政治传播概念(如虚假信息、错误信息和阴谋论)对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响,通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示,ChatGPT 在基准真实性评估任务中表现出较高的性能,在没有预训练的情况下,在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示,并且如何根据政治传播概念调整其评估,ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后,我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力,但也指出了由于特定因素(如提示语言或话题)导致其潜力实现方式的重大差异。