BriefGPT.xyz
大模型
Ask
alpha
关键词
perplexities
搜索结果 - 3
感受野对齐实现 Transformer 长度外推
研究了相对位置嵌入在语言模型上的应用,提出了基于对齐假设的自注意力机制,在训练过程中对齐输入,在测试过程中保证了相对位置嵌入的性质。提出的 Sandwich positional embedding 将比训练序列更长的信息融入模型之中,且由
→
PDF
2 years ago
ACL
GPT-D: 通过有意识地降低人工神经语言模型的能力引发与老年痴呆相关的语言异常
该研究提出了一种新颖的方法,利用 Transformer DL 模型(GPT-2)和与其人为降级版本(GPT-D)之间的困惑度比率,在语言学健康和损伤个体的语言上获得了接近于最先进性能的技术,也演示了通过 GPT-D 产生与 AD 相关的语
→
PDF
2 years ago
基于 Transformer 的语言模型
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Arch
→
PDF
5 years ago
Prev
Next