BriefGPT.xyz
大模型
Ask
alpha
关键词
linguistic concepts
搜索结果 - 2
探针分类器在概念移除和检测中不可靠
研究人员发现,基于文本数据训练的神经网络模型存在不可取的语言或敏感概念问题。本文通过广泛的理论和实证分析,证明了使用事后和对抗方法无法完全删除有问题的概念,并有可能破坏所有有用任务特征,并建议使用伪度量衡量最终分类器的质量。
PDF
2 years ago
分析 Transformer 语言模型中的编码概念
本文提出了一个新颖的框架 ConceptX,利用聚类发现预训练语言模型中编码的潜在概念,并通过与大量人类定义的概念进行对齐进行解释。它在七个变压器语言模型上的分析揭示了有趣的见解:i)学习表示中的潜在空间以不同的程度与不同的语言概念重叠,i
→
PDF
2 years ago
Prev
Next