BiasAsker：测量会话型人工智能系统的偏见

May, 2023

BiasAsker：测量会话型人工智能系统的偏见

BiasAsker: Measuring the Bias in Conversational AI System

Yuxuan Wan, Wenxuan Wang, Pinjia He, Jiazhen Gu, Haonan Bai...

TL;DR提出自动化框架 BiasAsker，通过构建包含 841 个社会群体和 8110 个有偏见属性的、综合性的社会偏见数据集，使用存在性测量的新方法，识别并衡量对话 AI 系统中的绝对偏见和相关偏见，对 8 个商业系统和 ChatGPT、GPT-3 等两个著名的研究模型进行广泛实验，结果表明，BiasAsker 生成的 32.83％的问题可以触发这些广泛部署的对话系统中的有偏见行为。

Abstract

Powered by advanced Artificial Intelligence (AI) techniques, conversational AI systems, such as ChatGPT and digital assistants like Siri, have been widely deployed in daily life. However, such systems may still produce content containing biases and stereotypes, causing potential social

conversational ai biases social groups bias detection automated framework

发现论文，激发创造

探索会话代理作为评估决策中认知偏差的有效工具

我们的研究旨在探索对话代理作为有效工具在不同领域测量各种认知偏差，我们的初步实验表明，对话代理可以有效地用于测量偏差。

Jan, 2024

揭示对话系统中的个人偏见

本文研究了对话系统的人格偏见，并分析了不同社会阶级、性取向、种族和性别的人物角色。研究者提出将对话系统的角色升级到拥有更多人文特征以更好的迎合用户的趋势可能会产生一些偏见。他们还介绍了一个开源框架 UnitPersonaBias，以探索和聚合对话系统中的人格偏见。此外，研究者还发现与不使用人格形象相比，采用人格形象可能会减少有害的回应。但是，人格选择会影响生成响应中危害程度，因此在实际应用前应该进行系统评估。

Apr, 2021

灰色中的人工智能：对有争议主题中对话型大语言模型的调控政策与人类回答的探究

通过将 ChatGPT 暴露在具有争议性的问题上，我们旨在了解其意识水平，以及现有模型是否存在社会政治和 / 或经济偏见。同时，我们还旨在探讨人工智能生成的答案与人类答案的对比情况。通过使用社交媒体平台 Kialo 创建的数据集来进行探索。我们的研究结果表明，尽管 ChatGPT 的以前版本在争议性话题上存在重要问题，但最近的版本 (gpt-3.5-turbo) 在多个知识领域中不再表现出明显的显性偏见，特别是在经济方面进行了很好的调节。然而，它仍然保持着一定程度的对右倾意识形态的隐性倾向，这表明需要从社会政治的观点增加更多的调节。在争议话题的领域知识方面，除了 “哲学” 类别外，ChatGPT 在跟上人类集体知识水平方面表现良好。最后，我们发现与人类答案相比，Bing AI 的信息来源在倾向中立方面略有增加。我们的所有分析都具有普遍适用于其他类型的偏见和领域。

Aug, 2023

会话式搜索中的偏见：个性化知识图谱的双刃剑

研究探讨了对话式搜索系统中的偏倚，重点讨论了与个性化知识图谱相关的偏差，提出了处理这些偏差的策略，并讨论了测量偏差和评估用户满意度的方法。

Oct, 2020

ChatGPT 的偏见是否应存在？大型语言模型中存在的偏见挑战和风险

本文探讨大规模语言模型（如 ChatGPT）中固有偏见的挑战和风险，讨论其起源、伦理问题、缓解偏见的潜在机会、在虚拟助手、内容生成功能和聊天机器人中部署这些模型的意义以及如何鉴别、量化和缓解语言模型中的偏见，强调了需要跨学科的合作来开发更公正、透明和负责任的人工智能系统。

Apr, 2023

人类对话代理对话中的性别偏见探究

研究通过行为和交流的角度，探讨了人机互动中性别偏见的影响，特别关注用户与对话代理的互动中的感知和语言风格，以及对话代理的性别设计如何加强和延伸性别偏见，并就对话代理的性别分配的适宜性和促进设计中性别平等提出伦理设计建议。

Jan, 2024

RedditBias：对话语言模型偏见评估和去偏见的现实世界资源

本文研究文本表示模型的偏见问题。尤其是，对于会话语言模型中存在的偏见问题，资源和方法有限，并且缺乏综合评估框架。本文提出了 RedditBias，一种多维偏见评测数据集，并开发了使用其进行评估测试的框架，同时测试了使用四种去偏见方法修复模型偏见后模型在会话生成方面的性能。结果表明，DialoGPT 模型存在宗教群体的偏见问题，但某些去偏见技术可以消除此种偏见并保留下游任务的性能。

Jun, 2021

增加高级聊天机器人的防护栏

ChatGPT 是公正的搜索引擎，但在文本生成和代码生成方面存在偏见；小的改变可能导致不同水平的公正性，需要立即实施 “修正” 或缓解策略以提高公平性。

Jun, 2023

人工与合成测试数据以及往返传送对偏见情感分析系统评估的影响

通过评估情感分析系统（SAS）在黑盒环境中，加入人工生成的聊天机器人数据集以及往返翻译设置，我们发现这些设置更真实地展现了 SAS 在现实中的表现，揭示了 SAS 在聊天机器人数据中存在更多偏见，而使用西班牙语和丹麦语作为中介语言往返翻译能减少人工生成数据中的偏见（最多可减少 68%），而在合成数据中则会增加偏见！这些发现将帮助研究人员和从业人员完善 SAS 测试策略，增强对 SAS 的信任，因为 SAS 被认为是全球性更为关键的应用的一部分。

Jan, 2024

自动语音识别中的偏见量化

本文旨在检测 ASR 系统中存在的性别、年龄、方言和非母语口音等方面引起的偏见，提出针对 ASR 开发的偏见缓解策略，主要关注数据集中由发音差异导致的各种偏见。

Mar, 2021