青少年在人工智能中的表征偏见：双语双文化研究

Aug, 2024

青少年在人工智能中的表征偏见：双语双文化研究

Representation Bias of Adolescents in AI: A Bilingual, Bicultural Study

Robert Wolfe, Aayushi Dangol, Bill Howe, Alexis Hiniker

TL;DR本研究解决了人工智能对青少年的偏见表现及其与青少年自我认知的不一致问题。通过对美国和尼泊尔青少年生成的语言模型进行比较分析，研究发现，在英语模型中，青少年常常与社会问题相关联，而参与者希望AI能够更加真实地展现青少年生活的多样性和积极性。该研究为减少青少年刻板印象提供了重要见解和方法。

Abstract

Popular and news media often portray teenagers with sensationalism, as both a risk to society and at risk from society. As AI begins to absorb some of the epistemic functions of traditional media, we study how teenagers in two countries speaking two languages: 1) are depicted by AI, and 2) how they would prefer to be depicted. Specifically, we study the bias

发现论文，激发创造

自然语言语料库所自动生成的语义带有类似人类的偏见

这份研究首次展示，应用标准机器学习到日常语言时会形成类似于人类的语义偏见，同时该研究还提供了用于评估文本偏见的新方法。

Aug, 2016

一而多：使用语言模型模拟人类样本

本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性，并提出算法保真度的概念，通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析，揭示了其中的“算法偏差”不是均质的，而是有人口学相关性的。作者通过调节模型条件，成为可以精确模拟大量人讨论或表达的回应情况的一种工具，这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。

Sep, 2022

我完全是我自己”: 以聚焦跨性别和非二元性人的声音来衡量开放式语言生成中的偏差

本文旨在通过研究TGNB社区的社会现实，评估其对语言生成技术中存在的性别歧视传统和对TGNB身份的伤害，并引入TANGO数据集来测量这些歧视。同时，本文还提出了一些具体的解决方案，并呼吁关注性少数群体的需求。

May, 2023

标记人设：使用自然语言提示来测量语言模型中的刻板印象

本文提出了基于提示的标记人物法（Marked Personas），其使用无词库或数据标注的方法来测量具有交叉社会群体的LLMs中的刻板印象，结果显示GPT-3.5和GPT-4生成的叙述比使用相同提示的人类撰写的叙述包含更多种族刻板印象。同时，对于边缘化群体的描绘也存在特定模式，例如热带化和社会萎缩化。这些代表性的伤害对于像故事生成之类的下游应用具有令人担忧的影响。

May, 2023

在交叉背景下评估语言模型的偏见态度关联

利用上下文词嵌入的概念投射方法，量化了英语语言模型中社会群体的情感倾向，发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度，此方法旨在研究语言模型中的历史偏见，并对设计正义做出贡献，探讨了在语言中被边缘化的群体的相关关系。

Jul, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

探究LLM中更微妙的偏见：生成模型中的年龄歧视、美貌、机构和国籍偏见

通过使用模板生成的数据集，本文研究了LLMs在年龄和美貌等维度上的偏见，以及LLMs对特定社会群体的情感偏向。同时，我们报告了多个先进的LLMs找到的相关性，这个数据集可以用来评估更广泛的偏见，并且模板技术可用于在最小的人工注释下扩展该基准。

Sep, 2023

生成式语言模型表现出社会身份偏见

调查发现现代语言模型存在基本的社会认同偏见，通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。

Oct, 2023

自由放任的危害：生成式语言模型中的算法偏差

通过开放式提示，我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题，这些问题可能导致心理伤害和认知能力下降。

Apr, 2024

生成人工智能伤害的心理社会影响

该研究探讨引起关注的生成式语言模型在教育领域可能产生的心理社会危害，分析了与学生课堂互动相关的15万个100字的故事中生成式语言模型所产生的角色人口统计学和再现伤害，强调了生成式人工智能工具在多样化社会环境中部署和使用时对于具有边缘化和少数族裔身份的用户体验可能产生的心理社会影响的重要性。

May, 2024