stereotype detection | BriefGPT

关键词stereotype detection

搜索结果 - 4

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计
大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能
PDF3 months ago
大规模文本图像模型中检测隐含刻板印象的语言代理
这篇研究论文介绍了一种面向文本到图像模型的刻板印象检测的新型代理架构，并发现在个人特征、社会文化背景和犯罪相关方面存在严重的刻板印象。该论文还强调了在人工智能生成内容领域中解决潜在伦理风险的紧迫性。
PDF9 months ago
可解释的统一语言检查
该研究表明，大型语言模型 (LMMs) 基于其对自然和社会知识的潜在表示，具有多任务语言检查器的特性且可以执行事实检查、刻板印象检测和仇恨言论检测任务。通过 “1/2-shot” 多任务语言检查方法，研究者们提出了一种简单的方法，并在几个语
PDFa year ago
ACL针对低资源的刻板印象检测的强化引导多任务学习框架
通过构建新的 evaluation set，同时利用邻近任务进行多任务模型训练和强化学习，该论文成功提高了基于 Stereotype Detection 的任务性能。
PDF2 years ago