BriefGPT.xyz
Ask
alpha
关键词
representational harms
搜索结果 - 3
超越行为主义的表征伤害:测量与缓减计划
该研究旨在扩大对可代表性危害的定义,通过量化和减轻大型语言模型对认知和情感状态造成的损害,建立一个公平研究的实用度量和减轻的框架。
PDF
5 months ago
ACL
标记人设:使用自然语言提示来测量语言模型中的刻板印象
本文提出了基于提示的标记人物法(Marked Personas),其使用无词库或数据标注的方法来测量具有交叉社会群体的 LLMs 中的刻板印象,结果显示 GPT-3.5 和 GPT-4 生成的叙述比使用相同提示的人类撰写的叙述包含更多种族刻
→
PDF
a year ago
预训练语言模型中衡量代表性伤害的度量指标的实证研究
本文通过对普及的预训练语言模型(PTLMs)的大规模数据进行实证分析,探讨测量 PTLMs 中对 13 个弱势人群的隐含偏见和有害内容所产生的表示损害的方法,并发现神经网络的深度对于减轻表示损害有所帮助。
PDF
a year ago
Prev
Next