通过调查,我们着重讨论了语言生成中社会偏见的数据和技术对偏见的影响及降低偏见的进展,并进行了实验来量化解码技术的影响,提出了语言生成应用公平和包容性考虑的重要性。
May, 2021
ChatGPT是公正的搜索引擎,但在文本生成和代码生成方面存在偏见;小的改变可能导致不同水平的公正性,需要立即实施“修正”或缓解策略以提高公平性。
Jun, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
分析ChatGPT对有性别偏见和提示分析的系统回应,检查其可用性和限制。
自动检测大型语言模型(如ChatGPT和GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。
Oct, 2023
我们提出了一个名为GPTBIAS的偏见评估框架,它利用LLMs的高性能来评估模型的偏见,提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息,通过广泛的实验证明了该评估框架的有效性和可用性。
Dec, 2023
研究如何发现和量化生成语言模型中的性别偏见,并设计了针对职业性别刻板印象的标准,通过职业性别刻板印象的测试结果论证了这些标准在生成人工智能模型中的存在。
Mar, 2024
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
本研究聚焦于大型语言模型(LLMs)中的隐性偏见,揭示新模型并不一定减轻偏见,反而在某些情况下可能表现出更高的偏见评分。研究强调需要建立标准化的评估指标,以应对模型开发中的不公正和歧视性后果,确保人工智能系统的公平与负责。
Oct, 2024
本研究解决了当前对生成性人工智能(GenAI)中固有社会偏见理解不足的问题,重点考察非专业用户如何识别和与这些偏见互动。通过分析大学级竞赛中参与者的提示设计,我们发现了多种在GenAI中存在的偏见及其诱导策略,为理解用户对GenAI系统偏见的感知提供了重要见解,旨在为模型开发者的偏见缓解工作提供指导。