BriefGPT.xyz
大模型
Ask
alpha
关键词
lstm layers
搜索结果 - 2
基于 Transformer 的语言模型
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Arch
→
PDF
5 years ago
EMNLP
序列标注任务中深度 LSTM 网络的最优超参数
通过评估超过 50,000 种不同的设置,我们发现网络设计选择和超参数对五个常见的语言序列标记任务,即 POS、块状、NER、实体识别和事件检测有显着影响,尤其是预先训练的词嵌入或者网路的最后一层。对于 LSTM 层数或循环单元的数量等其他
→
PDF
7 years ago
Prev
Next