ChatGPT 和 Bard 对极端问题的回应
通过将 ChatGPT 暴露在具有争议性的问题上,我们旨在了解其意识水平,以及现有模型是否存在社会政治和 / 或经济偏见。同时,我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明,尽管 ChatGPT 的以前版本在争议性话题上存在重要问题,但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然保持着一定程度的对右倾意识形态的隐性倾向,这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面,除了 “哲学” 类别外,ChatGPT 在跟上人类集体知识水平方面表现良好。最后,我们发现与人类答案相比,Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。
Aug, 2023
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性,结果显示,这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。
Apr, 2023
对基于大型语言模型的三个聊天机器人(ChatGPT-3.5、ChatGPT-4 和 Google Bard)进行了比较,重点关注它们解决数学和逻辑问题的能力,并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题,聊天机器人可能会提供准确的解决方案,但对于更复杂的数学问题或高级逻辑任务,它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5,而 Bard 在 Set B 中表现最好。
May, 2023
综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力,发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战,尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言,但对更普遍的方言表现令人满意,虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言,现有的大型语言模型在包容性方面仍有待改进,仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。
Aug, 2023
本研究比较分析了两个大型语言模型(LLM)聊天机器人 ——ChatGPT 和 Bing Chat(现在已更名为 Microsoft Copilot)在检测政治信息真实性方面的能力。通过使用人工智能审计方法,我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上,研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示,比较聊天机器人在高资源语言和低资源语言环境下的表现。此外,我们利用定义为导向的提示,探索了聊天机器人按照政治传播概念(如虚假信息、错误信息和阴谋论)对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响,通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示,ChatGPT 在基准真实性评估任务中表现出较高的性能,在没有预训练的情况下,在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示,并且如何根据政治传播概念调整其评估,ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后,我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力,但也指出了由于特定因素(如提示语言或话题)导致其潜力实现方式的重大差异。
Dec, 2023
借助创新方法,本研究调查了 GPT 多语言模型中的政治偏见。通过向 GPT 提出关于美国和中国高级政治问题的相同问题,我们分析了双语回答,发现 GPT 的简体中文模型在中国的政治问题上的 “知识”(内容)和 “态度”(情感)存在显著的不一致性。简体中文 GPT 模型不仅倾向于提供亲中信息,而且对中国问题的消极情感最少,而英文 GPT 则对中国表现出了更高的消极情感。这种差异可能源于中国的官方审查和中美地缘政治紧张关系,这两个因素影响了 GPT 双语模型的训练语料库。此外,中英文模型在处理表达语言所代表的问题时,相对于 “他们” 的问题,对 “自己” 的问题更不批判。这表明 GPT 多语言模型可能会根据其训练语言形成 “政治身份” 和相关的情感偏见。本研究讨论了我们发现对于信息传播和交流在一个日益分裂的世界中的影响。
Dec, 2023
这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力,并与专门的模型进行对比。研究发现,专门的模型和 ChatGPT 都没有达到令人满意的结果,低于人类表现,但 ChatGPT 显示出了潜在的潜力,并经常超过专门的检测模型。最后,论文深入探讨了 ChatGPT 的主要缺点,并提出了增强 LLM 能力的未来研究的指导。
Sep, 2023