新闻验证者对决：ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

Jun, 2023

新闻验证者对决：ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking

PDF

Kevin Matthe Caramancion

TL;DR本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现，这些模型在真伪辨别方面的平均得分为 65.25，其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势，得分为 71。然而，与人类事实核查员的表现相比，AI 模型尽管有前途，但在理解新闻信息中固有的细微差别和上下文方面落后。因此，本研究强调了 AI 在事实核查领域的潜力，同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。

Abstract

This study aimed to evaluate the proficiency of prominent Large Language Models (LLMs), namely OpenAI's ChatGPT 3.5 and 4.0, Google's Bard(LaMDA), and Microsoft's Bing AI in discerning the truthfulness of news items

large language models fact-checking ai capabilities truthfulness news items

发现论文，激发创造

大型语言模型可以评估新闻媒体的可信度

本研究评估了 ChatGPT 对新闻机构的可信度评估能力，结果显示大型语言模型可用于事实核查应用程序。

Apr, 2023

大语言模型事实核查的风险与前景

自动事实核查（使用机器学习来验证主张）已经变得至关重要，因为虚假信息已经超出了人类事实核查的能力范围。大型语言模型（LLMs），如 GPT-4，越来越受人们的信任，可以验证信息并撰写学术论文、诉讼文件和新闻文章，强调了它们在分辨真假和能够验证其输出的重要性。在这里，我们通过让 LLM 代理人表达查询、检索上下文数据和做出决策来评估 LLMs 在事实核查中的使用。重要的是，在我们的框架中，代理人解释他们的推理并引用检索到的相关来源。我们的结果显示，在配备上下文信息的情况下，LLMs 表现出更强大的能力。GPT-4 优于 GPT-3，但准确性取决于查询语言和主张的真实性。虽然 LLMs 在事实核查方面显示出前景，但仍需要谨慎使用，因为准确性不一致。我们的调研呼吁进一步研究，以更深入地了解代理人何时成功以及何时失败。

Oct, 2023

信赖生成 AI：聊天机器人能有效验证政治信息吗？

本研究比较分析了两个大型语言模型（LLM）聊天机器人 ——ChatGPT 和 Bing Chat（现在已更名为 Microsoft Copilot）在检测政治信息真实性方面的能力。通过使用人工智能审计方法，我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上，研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示，比较聊天机器人在高资源语言和低资源语言环境下的表现。此外，我们利用定义为导向的提示，探索了聊天机器人按照政治传播概念（如虚假信息、错误信息和阴谋论）对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响，通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示，ChatGPT 在基准真实性评估任务中表现出较高的性能，在没有预训练的情况下，在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示，并且如何根据政治传播概念调整其评估，ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后，我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力，但也指出了由于特定因素（如提示语言或话题）导致其潜力实现方式的重大差异。

Dec, 2023

大型语言模型在 VNHSGE 英语数据集上的性能比较：OpenAI ChatGPT、Microsoft Bing Chat 和 Google Bard

该论文比较了三种大型语言模型，OpenAI ChatGPT、微软 Bing Chat 和谷歌 Bard，在 VNHSGE 英语数据集上的性能，结果显示 BingChat 优于 ChatGPT 和 Bard。这项研究的结果有助于理解大型语言模型在英语教育中的潜力。

Jul, 2023

使用 ChatGPT 对虚假新闻数据集进行增强事实核查的再访

通过扩充大语言模型 (ChatGPT) 的事实核查，重新审视了由人类记者验证的现有虚假新闻数据集，并将扩充的虚假新闻数据集命名为 ChatGPT-FC。我们在评估新闻主题可信度、新闻创作者可信度、时态敏感度和政治框架方面定量分析了人类记者和 LLM 之间的差异和相似之处。我们的研究结果强调了 LLM 作为初步筛选方法的潜力，为减轻人类记者的固有偏见并增强虚假新闻检测提供了有希望的途径。

Dec, 2023

ChatGPT 与媒体偏见的比较研究：GPT-3.5 和微调语言模型

ChatGPT 的研究探索大型语言模型在媒体偏见检测方面的效力，结果显示 ChatGPT 在检测仇恨言论和文本级别上的情境偏见方面与精细调校的模型表现相当，但在其他偏见检测方面（包括虚假新闻、种族、性别和认知偏见）遇到困难。

Mar, 2024

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

利用人工智能梳理历史：GPT 3.5、GPT4 和 GoogleBARD 的预测准确度和事实核查比较评估

本研究评估了三种大型语言模型 LLMs（GPT 3.5、GPT 4 和 GoogleBARD）在预测和验证历史事件方面的性能，并引入了一个新的度量标准，即 “距离现实（DTR）”，以评估模型的输出与已知历史事实的符合度。结果表明，AI 在历史研究中具有巨大潜力，GPT 4 表现优异。本文强调了进一步研究 AI 在丰富我们对过去的理解和填补历史知识差距中的作用的必要性。

May, 2023

评估 ChatGPT 家族模型在生物医学推理和分类中的表现

研究了大型语言模型在生物医学任务中的性能，并与更简单的模型进行了比较，特别地，探讨了分类和因果关系检测任务。发现精细调整后的模型依然是最佳策略，而简单的词袋模型的表现与最复杂的大型语言模型的表现相当。

Apr, 2023