BriefGPT.xyz
Ask
alpha
关键词
transformer self-attention layers
搜索结果 - 1
EMNLP
学习使用非参数化变分信息瓶颈进行抽象
本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型,并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加
→
PDF
8 months ago
Prev
Next