从字节到偏见:研究大型语言模型的文化自我认知
该研究探讨了大型语言模型中的性别偏见问题,特别关注GPT-2和GPT-3.5等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少AI模型性别偏见中的作用。
Jul, 2023
文化在人们的推理、行为和交流中起着根本性的作用。生成性人工智能(AI)技术可能导致文化的转变。我们对大型语言模型进行文化偏差审核,将它们的回应与全国代表性调查数据进行比较,并评估特定国家的提示作为缓解策略。我们发现,GPT-4、3.5和3展现出类似英语和新教欧洲国家的文化价值观。我们的缓解策略减少了近期模型中的文化偏差,但并不适用于所有国家/地区。为了避免在生成性人工智能中存在文化偏见,尤其是在高风险环境中,我们建议使用文化匹配和持续进行文化审核。
Nov, 2023
本研究探究了大型语言模型中的经济和政治偏见以及调整细节对其产生的影响,通过使用参数效率微调技术,我们介绍了一种系统的数据集选择、注释和指令调整方法,并通过定量和定性评估评估其有效性,旨在讨论AI的道德应用,强调将AI部署在符合社会价值观的方式上的重要性。
Apr, 2024
大型语言模型(LLMs)嵌入了复杂的偏见和刻板印象,可能导致有害的用户体验和社会后果,而模型本身通常没有意识到这一点。本文强调了为LLMs配备更好的自我反思和偏见识别机制的重要性。我们的实验表明,通过告知LLMs它们生成的内容不代表自己的观点,并对其偏见进行质疑,可以提高LLMs识别和解决偏见的能力。这种改进归因于LLMs的内部注意力机制和潜在的内部敏感性政策。基于这些发现,我们提出了一个减少LLMs输出偏见的新方法。该方法涉及将LLMs置于多角色情景中,扮演不同角色,在每个辩论循环的最后担任公正裁判的角色,以暴露偏见。采用排名评分机制来量化偏见水平,从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法,为追求更具伦理AI系统的努力作出了有价值的贡献。
Apr, 2024
利用受雇歧视研究的经典实验设计,我们测试了包括GPT-3.5和GPT4在内的广泛使用的大型语言模型,发现它们在二选一场景中倾向于选择由大型语言模型生成的内容,暗示AI系统可能存在隐性对人类的歧视,给予AI代理人不公平的优势。
Jul, 2024
本研究解决了不同大型语言模型(LLMs)之间偏见相似性缺乏比较的研究空白。通过分析十个开源和闭源的LLM,研究发现微调对输出分布没有显著影响,不同模型之间的偏见表现在功能上有显著差异,且存在训练数据泄露的隐患。这一发现为理解LLMs的行为以及在实际应用中的潜在风险提供了重要见解。
Oct, 2024
本研究分析了开源大型语言模型(LLMs)在性别、宗教和种族上的偏见,填补了现有研究在偏见检测方法上的空白。采用七种偏见触发器生成偏见检测数据集,并通过对比分析不同模型的产生的文本偏见,发现LLMs在不同群体间表现出强烈的极化现象,而语言的切换则引发了各种变异与异常,揭示了文化和语境对偏见表现的影响。
Oct, 2024
本研究聚焦于大型语言模型(LLMs)中的隐性偏见,揭示新模型并不一定减轻偏见,反而在某些情况下可能表现出更高的偏见评分。研究强调需要建立标准化的评估指标,以应对模型开发中的不公正和歧视性后果,确保人工智能系统的公平与负责。
Oct, 2024
本研究解决了当前对生成性人工智能(GenAI)中固有社会偏见理解不足的问题,重点考察非专业用户如何识别和与这些偏见互动。通过分析大学级竞赛中参与者的提示设计,我们发现了多种在GenAI中存在的偏见及其诱导策略,为理解用户对GenAI系统偏见的感知提供了重要见解,旨在为模型开发者的偏见缓解工作提供指导。
Oct, 2024
本研究针对当前对大型语言模型(LLMs)文化价值观的研究不足,提出了LLM-GLOBE基准,以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法,研究比较了中美两国LLMs的文化价值观,结果显示东西方文化价值体系之间的异同,为后续的模型开发和评估提供了重要启示。
Nov, 2024