ChatGPT 和 Bard 能否生成对齐的评估题目？针对人类表现的可靠性分析

Apr, 2023

ChatGPT 和 Bard 能否生成对齐的评估题目？针对人类表现的可靠性分析

Can ChatGPT and Bard Generate Aligned Assessment Items? A Reliability Analysis against Human Performance

Abdolvahab Khademi

TL;DR本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性，结果显示，这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。

Abstract

chatgpt and bard are AI chatbots based on Large Language Models (LLM) that are slated to promise different applications in diverse areas. In education, these →

chatgpt bard ai technologies automated essay scoring reliability

发现论文，激发创造

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

ChatGPT 与 Bard 在检测阿尔茨海默病痴呆方面的性能评估

LLM chatbots (ChatGPT-3.5, ChatGPT-4, and Bard) were assessed for their ability to recognize Alzheimer's Dementia and Cognitively Normal individuals using spontaneous speech recordings, showing promising performance but not yet suitable for clinical application.

Jan, 2024

ChatGPT 对抗 Bard、Bing、Claude 2、Aria 和人类专家。科学写作上人工智能聊天机器人的表现如何？(版本 23Q3)

AI chatbots in scholarly writing were analyzed, revealing their proficiency in recombining existing knowledge but their limitations in generating original scientific content; the size of LLMs has plateaued, highlighting the challenges in emulating human originality, though the evolution of LLM-powered software is expected to improve this.

Sep, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

量化相似度：评估 ChatGPT 和 Google Bard 内容相对于生物医学文献的文本挖掘方法

使用生成式人工智能工具、大型语言模型（LLMs）以及文本挖掘和网络分析方法，本研究评估了生成内容的有用性，比较了生成内容与科学文献的相似性，并发现 ChatGPT 在文档相似性、词组及网络中心性方面优于 Google Bard。此外，ChatGPT 还提供了与文献中相连的术语之间的联系，有助于激发有趣的问题和生成新的假设。

Jan, 2024

32 个大学课程中对话式人工智能的感知、表现和可检测性

该研究比较了 ChatGPT 和 32 门大学课程学生的表现，发现 ChatGPT 在许多课程中的表现相当，甚至优于许多学生。此外，其使用也难以被 AI 文本分类器可靠地检测出来，并且出现了学生使用该工具和教育者将其视为抄袭的共识，这些发现为 AI 融入教育框架的政策讨论提供了指导。

May, 2023

测验计算机科学本科生在 ChatGPT 使用中：“不像 Jarvis，但非常接近！

本研究采用了学生至上的方法，通过学生调查和访谈以全面了解计算机科学本科生如何使用 ChatGPT，这是由 OpenAI 发布的一种流行的大型语言模型。研究发现，大多数学生对 ChatGPT 在课程相关任务中的辅助性态度积极，但也发现了在学生中长期接纳 ChatGPT 所面临的各种挑战，这些发现具有更广泛的意义，并可适用于其他大型语言模型及其在计算机教育中的作用。

Nov, 2023

新闻验证者对决：ChatGPT 3.5、ChatGPT 4.0、Bing AI、Bard 在新闻事实核查中的比较表现评估

本文评估了开放 AI 的 ChatGPT 3.5 和 4.0、谷歌的 Bard (LaMDA) 和微软的 Bing AI 等主要大型语言模型在使用黑箱测试区分新闻真伪方面的精通程度。研究发现，这些模型在真伪辨别方面的平均得分为 65.25，其中 OpenAI 的 GPT-4.0 在新的 LLMs 的能力方面表现出优势，得分为 71。然而，与人类事实核查员的表现相比，AI 模型尽管有前途，但在理解新闻信息中固有的细微差别和上下文方面落后。因此，本研究强调了 AI 在事实核查领域的潜力，同时也强调了人类认知能力的重要性和 AI 能力持续发展的必要性。

Jun, 2023

ChatGPT-Crawler: 查看 ChatGPT 的言论是否可靠

本研究分析了 ChatGPT 在不同对话问答语料库中生成的回答，并使用 BERT 相似度得分进行比较，以获取自然语言推理（NLI）标签。该研究还确定了 ChatGPT 提供错误答案的情况，提供了有关该模型可能存在错误的领域的见解。通过评估分数，比较 GPT-3 和 GPT-4 的整体性能。

Apr, 2023

ChatGPT 和 Bard 对极端问题的回应

通过创建和描述 ChatGPT 和 Bard 响应的数据集，我们发现在美国高度极化的话题中，ChatGPT 和 Bard 倾向于左倾，Bard 更可能围绕极化话题提供响应，且对争议话题的限制较少，倾向于提供全面且更像人类的回答。利益相关者可以利用我们的发现来减少自然语言处理模型中的错误或极化响应。

Jul, 2023