SeeGULL 多语言:一个地理文化背景下定位的刻板印象数据集
本研究旨在解决现有数据集只包含西方社会陈规模式以及规模和覆盖范围有限的问题,提出了一种使用大型语言模型 (PaLM 和 GPT-3) 和全球多元化评估来构建广泛覆盖的关于 178 个国家、8 个地缘政治地区以及 6 个大洲各个群体陈规的数据集 SeeGULL,并展示了该数据集的应用,包括陈规分析以及全球差异。
May, 2023
大规模语言模型在人工智能应用领域有显著的进展,但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集,探索了基于不同机器学习方法的刻板模式检测基线,通过调整语言模型架构和大小,构建了英文文本的一系列刻板模式分类器模型,并使用可解释性人工智能工具进行验证和分析。在生成文本任务中,使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度,并得出了多个关键发现。
Apr, 2024
通过扩展印度社会背景下的评估资源,本研究对生成语言模型的评估进行了社会文化意识的拓展,特别关注了刻板印象的有害性,并通过建立包含印度特有身份不平等轴上刻板印象的资源,增加了对印度背景下刻板印象的了解。
Jul, 2023
通过构建多语言数据集 GeniL,我们介绍了检测语言中概括化的新任务,其对多样的上下文进行了可靠区分,从而有助于深入理解刻板印象的永久化,这是实现更包容、负责任的语言技术的关键一步。
Apr, 2024
多语种大型语言模型中存在刻板印象的泄漏现象,表现为正面、负面和非极性关联在所有语言中都存在,尤其是对印地语敏感度最大,而中文敏感度最小;此外,ChatGPT 与人类评分更加匹配。
Dec, 2023
通过使用现有的文字资源来评估 T2I 模型生成的图像中的地缘文化刻板印象,我们的研究表明在与其他属性相比,特定身份群体的图像中刻板印象出现的可能性是其他属性的三倍,并揭示出所有身份群体的默认代表都具有刻板印象的外观。
Jan, 2024
通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性,扩展了评估预训练英语语言模型中的刻板偏见的研究范围,发现在多语言环境下分析是非常重要的,并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。
Jul, 2023
研究表明,生成性大型语言模型存在有害的偏见和刻板印象。该论文通过研究不同语言的社会刻板印象,控制文化差异和任务准确性,证实了非英语语言存在更多的偏见,并且观察到跨语言的偏见行为存在显著差异。
Jun, 2024
本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器,并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能,利用该模型评估了流行的 GPT 模型系列的刻板印象行为,并观察到刻板印象的减少,从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。
Nov, 2023
本研究介绍了一种数据驱动的生成文化知识和刻板印象知识图谱的全流程,并进行了评估和训练,提高了模型的文化认知和对抗仇恨言论检测的性能。
May, 2022