开放领域聊天机器人的政治审慎评估
本研究比较分析了两个大型语言模型(LLM)聊天机器人 ——ChatGPT 和 Bing Chat(现在已更名为 Microsoft Copilot)在检测政治信息真实性方面的能力。通过使用人工智能审计方法,我们在 COVID-19、俄罗斯对乌克兰的侵略、大屠杀、气候变化和 LGBTQ + 相关辩论这五个话题上,研究了聊天机器人对真实、虚假和模糊陈述的评估。我们使用英语、俄语和乌克兰语的提示,比较聊天机器人在高资源语言和低资源语言环境下的表现。此外,我们利用定义为导向的提示,探索了聊天机器人按照政治传播概念(如虚假信息、错误信息和阴谋论)对陈述进行评估的能力。我们还系统地测试了来源偏见对这种评估的影响,通过将具体声明归属于不同的政治和社会行为者来模拟来源偏见。结果显示,ChatGPT 在基准真实性评估任务中表现出较高的性能,在没有预训练的情况下,在不同语言之间平均评估准确性为 72%。Bing Chat 的准确率为 67%。我们观察到聊天机器人如何在高资源语言和低资源语言中评估提示,并且如何根据政治传播概念调整其评估,ChatGPT 提供的输出比 Bing Chat 更为细致入微。最后,我们发现聊天机器人在某些与真实性检测相关的任务中的性能因陈述的话题或归属的来源而有所变化。这些发现突显了基于 LLM 的聊天机器人在解决在线环境中不同形式的虚假信息方面的潜力,但也指出了由于特定因素(如提示语言或话题)导致其潜力实现方式的重大差异。
Dec, 2023
该论文探讨聊天机器人的安全问题,提出了一种基于适当性概念的限制方法,包括技术 - 话语、社交和道德上的适当性,并提出了聊天机器人要满足的三个要求:立场性,可接受性和价值取向一致性(PAVA),同时建议使用适当性挑战集作为验证方法。
Apr, 2023
通过将 ChatGPT 暴露在具有争议性的问题上,我们旨在了解其意识水平,以及现有模型是否存在社会政治和 / 或经济偏见。同时,我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明,尽管 ChatGPT 的以前版本在争议性话题上存在重要问题,但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然保持着一定程度的对右倾意识形态的隐性倾向,这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面,除了 “哲学” 类别外,ChatGPT 在跟上人类集体知识水平方面表现良好。最后,我们发现与人类答案相比,Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。
Aug, 2023
通过两项研究,本文阐述了当前的 Open-domain chatbots 的会话范围的局限性,建议使用 “small talk” 而非 “open-domain” 来描述目前的聊天机器人,同时提出需要改进评估方法以测试聊天机器人与其他语篇的对话。
Nov, 2022
探讨了在开放领域生成式对话模型中缓解无意识偏见、有害行为的问题,提出了新的人与模型交互框架及新方法,而不使用外部分类器,在保证模型可用性的同时更安全,实现了自动和人为评估。
Oct, 2020
使用 Topical-Chat 数据集,我们训练了多个最先进的编码器 - 解码器对话模型,并进行了自动化和人工评估,以帮助在开放领域对话人工智能方面的进一步研究。
Aug, 2023
在这项研究中,我们探讨了 ChatGPT 在学术背景下的伦理影响、其局限性和特定用户群体可能的滥用情况,并提出了旨在防止不当使用和促进负责任的 AI 交互的架构解决方案。
Oct, 2023
通过对 OpenAI 的 ChatGPT 进行定性研究,发现大规模语言模型的伦理风险主要包括偏见性和毒性,当前的基准测试无法解决这些问题,为了避免语言模型应用中出现伦理风险,需要制定可靠的基准测试和实施设计。
Jan, 2023
通过创建和描述 ChatGPT 和 Bard 响应的数据集,我们发现在美国高度极化的话题中,ChatGPT 和 Bard 倾向于左倾,Bard 更可能围绕极化话题提供响应,且对争议话题的限制较少,倾向于提供全面且更像人类的回答。利益相关者可以利用我们的发现来减少自然语言处理模型中的错误或极化响应。
Jul, 2023