该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害,分析了与学生课堂互动相关的 15 万个 100 字的故事中生成式语言模型所产生的角色人口统计学和再现伤害,强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。
May, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
本文对语言生成模型潜在威胁与社会危害进行了调查研究,提供了探查与缓解风险和伤害的实用方法,旨在为大型语言模型研究人员和从业者提供实用指南。
Oct, 2022
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
探讨生成式语言模型在数字应用中的广泛使用可能会不经意地引发自我加强学习循环,从而放大现有的语言偏见,这可能会影响未来几代人的语言和认知发展,并强调有必要进行严格的研究,以确保这些强大技术的有效、安全和公平使用,同时保持人类语言的丰富性和多样性。
Jun, 2023
本文旨在帮助构建与大规模语言模型相关的风险场景。我们总结了 LMs 可能面临的各种风险,如歧视、错误信息、自动化等,并提出了应对方法和未来研究方向。
Dec, 2021
这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT(OpenAI)和 Bard(Google)来探讨了大型语言模型的文化自我认知,结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要,因为我们不希望人工智能的黑盒子延续偏见,使人类在无意中创造和训练更加带有偏见的算法。
Dec, 2023
通过探索新的方法来检测大型语言模型中的潜在偏见,本研究聚焦于不确定性量化和可解释人工智能方法,旨在提高模型决策的透明性,以识别和理解不明显的偏见,从而为更加公平和透明的人工智能系统的发展做出贡献。
Apr, 2024
研究发现最近的语言模型在数字产品中越来越普及,但是人们担心这些模型采用的自然语言会有偏见,影响可用性。为了提高公正性,我们通过一种障碍问卷测量来识别 GPT-3 模型生成的文本是否具有偏见和公平性。
Jun, 2022
研究如何发现和量化生成语言模型中的性别偏见,并设计了针对职业性别刻板印象的标准,通过职业性别刻板印象的测试结果论证了这些标准在生成人工智能模型中的存在。
Mar, 2024