ChatGPT 和 Bard 对极端问题的回应

Jul, 2023

ChatGPT and Bard Responses to Polarizing Questions

Abhay Goyal, Muhammad Siddique, Nimay Parekh, Zach Schwitzky, Clara Broekaert...

TL;DR通过创建和描述 ChatGPT 和 Bard 响应的数据集，我们发现在美国高度极化的话题中，ChatGPT 和 Bard 倾向于左倾，Bard 更可能围绕极化话题提供响应，且对争议话题的限制较少，倾向于提供全面且更像人类的回答。利益相关者可以利用我们的发现来减少自然语言处理模型中的错误或极化响应。

Abstract

Recent developments in natural language processing have demonstrated the potential of large language models (LLMs) to improve a range of educational and learning outcomes. Of recent →

natural language processing large language models chatbots hallucinations polarizing topics

发现论文，激发创造

灰色中的人工智能：对有争议主题中对话型大语言模型的调控政策与人类回答的探究

通过将 ChatGPT 暴露在具有争议性的问题上，我们旨在了解其意识水平，以及现有模型是否存在社会政治和 / 或经济偏见。同时，我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明，尽管 ChatGPT 的以前版本在争议性话题上存在重要问题，但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见，特别是在经济方面进行了很好的调节。然而，它仍然保持着一定程度的对右倾意识形态的隐性倾向，这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面，除了 “哲学” 类别外，ChatGPT 在跟上人类集体知识水平方面表现良好。最后，我们发现与人类答案相比，Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。

Aug, 2023

增加高级聊天机器人的防护栏

ChatGPT 是公正的搜索引擎，但在文本生成和代码生成方面存在偏见；小的改变可能导致不同水平的公正性，需要立即实施 “修正” 或缓解策略以提高公平性。

Jun, 2023

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023

ChatGPT 和 Bard 能否生成对齐的评估题目？针对人类表现的可靠性分析

本文测试了 ChatGPT 和 Bard AI 技术在评估和教学领域的应用。使用 ICC 构建了性能指标来衡量它们的可靠性，结果显示，这两款 LLM 工具在感知和评估写作提示复杂性方面相对人类评分标准具有较低的一致性。

Apr, 2023

聊天机器人在数学和逻辑问题中的应用：ChatGPT-3.5、ChatGPT-4 和 Google Bard 的初步比较和评估

对基于大型语言模型的三个聊天机器人（ChatGPT-3.5、ChatGPT-4 和 Google Bard）进行了比较，重点关注它们解决数学和逻辑问题的能力，并通过一系列测试发现对于简单的算术、代数表达式和基本的逻辑谜题，聊天机器人可能会提供准确的解决方案，但对于更复杂的数学问题或高级逻辑任务，它们的答案可能不可靠。ChatGPT-4 在两组问题中的表现均优于 ChatGPT-3.5，而 Bard 在 Set B 中表现最好。

May, 2023

Bard 和 ChatGPT 在十种阿拉伯语方言机器翻译中的评估

综述了大型语言模型对阿拉伯语方言的机器翻译效能以及在翻译任务中与人类指令的对齐能力，发现大型语言模型在处理某些阿拉伯语方言时可能面临挑战，尤其是针对缺乏公开数据的阿尔及利亚和毛里塔尼亚方言，但对更普遍的方言表现令人满意，虽然偶尔落后于像 Google 翻译这样的商业系统。总体而言，现有的大型语言模型在包容性方面仍有待改进，仅具有有限的能力来满足不同社区之间的语言和文化复杂性需求。

Aug, 2023

会话型人工智能的政治意识形态：关于 ChatGPT 倾向于环保，左倾自由主义的收敛证据

研究 ChatGPT 在政治选举中的意识形态及偏见，发现其具有亲环境、左倾自由主义意识形态。

Jan, 2023

信赖生成 AI：聊天机器人能有效验证政治信息吗？

本研究比较分析了两个大型语言模型（LLM）聊天机器人 ——ChatGPT 和 Bing Chat（现在已更名为 Microsoft Copilot）在检测政治信息真实性方面的能力。通过使用人工智能审计方法，我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上，研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示，比较聊天机器人在高资源语言和低资源语言环境下的表现。此外，我们利用定义为导向的提示，探索了聊天机器人按照政治传播概念（如虚假信息、错误信息和阴谋论）对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响，通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示，ChatGPT 在基准真实性评估任务中表现出较高的性能，在没有预训练的情况下，在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示，并且如何根据政治传播概念调整其评估，ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后，我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力，但也指出了由于特定因素（如提示语言或话题）导致其潜力实现方式的重大差异。

Dec, 2023

红色人工智能？GPT3.5 模型对美中政治问题的不一致回应

借助创新方法，本研究调查了 GPT 多语言模型中的政治偏见。通过向 GPT 提出关于美国和中国高级政治问题的相同问题，我们分析了双语回答，发现 GPT 的简体中文模型在中国的政治问题上的 “知识”（内容）和 “态度”（情感）存在显著的不一致性。简体中文 GPT 模型不仅倾向于提供亲中信息，而且对中国问题的消极情感最少，而英文 GPT 则对中国表现出了更高的消极情感。这种差异可能源于中国的官方审查和中美地缘政治紧张关系，这两个因素影响了 GPT 双语模型的训练语料库。此外，中英文模型在处理表达语言所代表的问题时，相对于 “他们” 的问题，对 “自己” 的问题更不批判。这表明 GPT 多语言模型可能会根据其训练语言形成 “政治身份” 和相关的情感偏见。本研究讨论了我们发现对于信息传播和交流在一个日益分裂的世界中的影响。

Dec, 2023

利用大型语言模型进行自动对话分析

这篇论文研究了使用大型语言模型 ChatGPT-3.5 在真实人机对话中执行对话行为检测的能力，并与专门的模型进行对比。研究发现，专门的模型和 ChatGPT 都没有达到令人满意的结果，低于人类表现，但 ChatGPT 显示出了潜在的潜力，并经常超过专门的检测模型。最后，论文深入探讨了 ChatGPT 的主要缺点，并提出了增强 LLM 能力的未来研究的指导。

Sep, 2023