BriefGPT.xyz
Ask
alpha
关键词
language modeling tasks
搜索结果 - 5
跳跃层注意力:在 Transformer 中连接抽象和详细依赖关系
该研究论文通过引入 Skip-Layer Attention (SLA) 方法在 Transformer 模型中实现直接关注非相邻层之间的依赖关系,提升模型捕捉高层抽象特征和底层细节之间的依赖,扩展了 Transformer 的功能,实现了
→
PDF
19 days ago
使用张量列车矩阵表示的高效 GPT 模型预训练
本研究通过将全连接层的矩阵替换为相应的张量列车矩阵结构以减少 GPT-2 体系结构的参数数量,并提出了一种可扩展的张量化层,以提高模型效率和最终模型的稳定性。
PDF
a year ago
高效稀疏激活变压器
本文研究了在基于 Transformer 的神经网络中引入混合专家 (MoE) 层以优化推理延迟,并提出了一个名为 PLANER 的系统,能够在保持基准准确性的同时实现推理延迟的优化,实验结果表明,这种方法能够在两个真实的语言建模任务中实现
→
PDF
2 years ago
块循环变压器
本文提出 Block-Recurrent Transformer 模型,运用 transformer layer 实现序列的循环,以及利用 LSTM-style gates 实现参数可扩展性,改进了常规 transformer layer
→
PDF
2 years ago
ICLR
使用可微的不确定栈学习层次结构
本文介绍了一种基于 PDA 的不确定状态堆栈循环神经网络(NS-RNN)模型,它使用不同 iable stacks,以提高自然语言处理的性能,并提出了一个限制版本的 NS-RNN,以便处理无限长的序列。该模型在五个上下文无关语言建模任务中实
→
PDF
3 years ago
Prev
Next