青少年在人工智能中的表征偏见:双语双文化研究
本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性,并提出算法保真度的概念,通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析,揭示了其中的“算法偏差”不是均质的,而是有人口学相关性的。作者通过调节模型条件,成为可以精确模拟大量人讨论或表达的回应情况的一种工具,这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。
Sep, 2022
本文旨在通过研究TGNB社区的社会现实,评估其对语言生成技术中存在的性别歧视传统和对TGNB身份的伤害,并引入TANGO数据集来测量这些歧视。同时,本文还提出了一些具体的解决方案,并呼吁关注性少数群体的需求。
May, 2023
本文提出了基于提示的标记人物法(Marked Personas),其使用无词库或数据标注的方法来测量具有交叉社会群体的LLMs中的刻板印象,结果显示GPT-3.5和GPT-4生成的叙述比使用相同提示的人类撰写的叙述包含更多种族刻板印象。同时,对于边缘化群体的描绘也存在特定模式,例如热带化和社会萎缩化。这些代表性的伤害对于像故事生成之类的下游应用具有令人担忧的影响。
May, 2023
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
通过使用模板生成的数据集,本文研究了LLMs在年龄和美貌等维度上的偏见,以及LLMs对特定社会群体的情感偏向。同时,我们报告了多个先进的LLMs找到的相关性,这个数据集可以用来评估更广泛的偏见,并且模板技术可用于在最小的人工注释下扩展该基准。
Sep, 2023
调查发现现代语言模型存在基本的社会认同偏见,通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。
Oct, 2023
该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害,分析了与学生课堂互动相关的15万个100字的故事中生成式语言模型所产生的角色人口统计学和再现伤害,强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。
May, 2024