印度公职人员模拟面试中的性别表现与偏见
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
该研究探讨了大型语言模型中的性别偏见问题,特别关注GPT-2和GPT-3.5等多个语言模型之间的比较,通过对生成的文本进行全面的文献综述和定量分析,发现了性别化词汇关联、语言使用和偏见叙述的问题,并提出了减少性别偏见的算法和数据增强技术。该研究强调了学科间合作的重要性和社会学研究在减少AI模型性别偏见中的作用。
Jul, 2023
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。
Aug, 2023
这篇论文通过对社交媒体讨论进行内容分析,调查了不同文化背景下训练的大型语言模型(LLM),如ChatGPT和Ernie,对性别偏见的公众看法。研究发现,ChatGPT在隐性性别偏见方面更常见,例如将男性和女性与不同的职业头衔联系在一起,而Ernie的回应中则存在明显的性别偏见,比如过分强调女性追求婚姻而非事业。根据研究结果,我们反思了文化对性别偏见的影响,并提出了规范LLM性别偏见的治理建议。
Sep, 2023
该研究评估了大型语言模型对获取事实信息的使用,特别研究了这些模型在回答问题时可能产生错误回答或完全拒绝回答的倾向,并重点调查了性别差异在模型回答中的存在。研究结果显示GPT-3.5生成的回答存在明显性别差异,尽管GPT-4的进展改善了性能,但并未完全消除这些性别差异,特别是在回答被拒绝的情况下。研究进一步探讨了提示中性别相关性和回答的同质性对这些差异的影响。
Mar, 2024
本文为首次针对印度的印地语进行的性别偏见全面研究,通过采用多种挖掘技术、计算模型和实地研究,并揭示了当前方法的局限性。通过涉及农村和低收入社区妇女的现场研究,我们揭示了性别偏见的多样化认知,强调了针对具体情境的方法的必要性。本文主张以社区为中心的研究设计,扩大先前研究中常常被边缘化的声音。我们的研究不仅有助于理解印地语中的性别偏见,而且为进一步探索印度语言奠定了基础。通过探索这个未被深入研究的语境的复杂性,我们呼吁在超越全球北方的语言和文化背景中以思慎的方式参与性别偏见,促进包容性和公平性。
May, 2024
我们研究了大型语言模型(LLMs)在孟加拉语中生成输出时存在的两种社会偏见,并提出了针对孟加拉语中偏见检测的两种探测技术,为偏见测量基准提供了一个策划数据集,这是我们所知道的首个涉及孟加拉语LLMs偏见评估的研究。
Jul, 2024
本研究针对Bangla语言中存在的情感与性别之间错综复杂的社会关系,对低资源语言中封闭和开源大语言模型的性别情感归属进行了分析研究,揭示了存在于Bangla中情感性别偏见的存在并展示了情感归属如何基于性别角色选择而改变,并公开提供了所有相关资源以支持Bangla自然语言处理的未来研究。
Jul, 2024
本研究针对大型语言模型(LLMs)在自然语言生成中放大性别相关社会偏见的问题,提出了GenderCARE框架,以构建灵活而全面的评估标准、偏见评估、减少技术及评估指标。研究表明,该框架能显著减少性别偏见,且在保持模型性能的同时,实现过90%的偏差降低,为实现LLMs的公平性和公正性提供了新的解决方案。
Aug, 2024