聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

May, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

Chatbots put to the test in math and logic problems: A preliminary comparison and assessment of ChatGPT-3.5, ChatGPT-4, and Google Bard

PDF

Vagelis Plevris, George Papazafeiropoulos, Alejandro Jiménez Rios

TL;DR对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

Abstract

A comparison between three chatbots which are based on large language models, namely ChatGPT-3.5, ChatGPT-4 and Google Bard is presented, focusing on their ability to give correct answers to →

chatbots language models mathematics logic problems quantitative evaluation

发现论文，激发创造

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

新闻验证者对决：ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现，这些模型在真伪辨别方面的平均得分为 65.25，其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势，得分为 71。然而，与人类事实核查员的表现相比，AI 模型尽管有前途，但在理解新闻信息中固有的细微差别和上下文方面落后。因此，本研究强调了 AI 在事实核查领域的潜力，同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。

Jun, 2023

评估人工智能聊天机器人在综合标准化考试准备中的表现：以 GRE 为例的案例研究

本研究论文评估了三个人工智能聊天机器人（Bing、ChatGPT 和 GPT-4）在应对标准化考试问题方面的性能，以 GRE 作为案例研究，包括定量推理和语言技能。对 137 道定量推理问题和 157 道语言问题进行了综合评估，结果表明不同聊天机器人在不同技能和风格的考试中的表现存在差异，GPT-4 在复杂语言理解任务方面表现最好，彰显了人工智能在语言理解上的进化和在考试中获得高分的能力。

Nov, 2023

ChatGPT 的数学能力

本研究使用 GHOSTS 数据集评估了 ChatGPT 的数学能力和其他训练过数学语料库的模型相比，发现其数学能力显著低于普通数学研究生，并强调 GHOSTS 数据集的重要性以及未来大型语言模型在高级数学理解方面的比较研究。

Jan, 2023

ChatGPT 和 Bard 能否生成对齐的评估题目？针对人类表现的可靠性分析

本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性，结果显示，这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。

Apr, 2023

跨语言评估 ChatGPT 的数学能力

本文评估了 ChatGPT 在印地语、古吉拉特语和马拉地语等不同语言中的数学能力。我们探索了 ChatGPT 在多种自然语言中解决数学问题的能力，并使用思维链提示来确定它是否像在英语中那样增加了回答的准确性，并提供了当前的限制。

May, 2024

ChatGPT 与 Bard 在检测阿尔茨海默病痴呆方面的性能评估

LLM chatbots (ChatGPT-3.5, ChatGPT-4, and Bard) were assessed for their ability to recognize Alzheimer's Dementia and Cognitively Normal individuals using spontaneous speech recordings, showing promising performance but not yet suitable for clinical application.

Jan, 2024

ChatGPT 与 Google：搜索性能和用户体验的比较研究

本研究探讨了使用搜索引擎和聊天机器人工具进行信息寻求任务时用户行为的差异，并表明 ChatGPT 组在所有任务中花费的时间都较少，用户反馈的用户体验显著更好，然而，ChatGPT 还可能会导致过度依赖并产生或复制错误信息。

Jul, 2023

增加高级聊天机器人的防护栏

ChatGPT 是公正的搜索引擎，但在文本生成和代码生成方面存在偏见；小的改变可能导致不同水平的公正性，需要立即实施 “修正” 或缓解策略以提高公平性。

Jun, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023