BriefGPT.xyz
大模型
Ask
alpha
关键词
long inputs
搜索结果 - 4
生成语言模型的多层解释
我们提出了一个名为 MExGen 的通用框架,可以扩展文本分类中的扰动解释方法(如 LIME 和 SHAP)以应对生成语言模型的挑战,该框架可用于不同的归因算法,并通过标量化器将文本映射到实数处理文本输出,同时采用多层级方法处理长输入,通过
→
PDF
3 months ago
通过在分段序列上训练扩展语言模型的输入上下文
在没有架构更改和额外存储成本的情况下,通过对分段序列的训练和基于插值的方法来扩展绝对位置嵌入,我们开发了一种训练过程,以扩展预训练模型的输入上下文大小。我们的方法能够将输入上下文扩展 4 倍,同时改善困惑度。
PDF
8 months ago
SAC: 通过稀疏自适应连接加速和结构化自注意力
本文介绍 Sparse Adaptive Connection(SAC)方法,将输入序列视为图,并通过构建关注边,以改进任务特定性能,优化了自注意力机制。通过在图形表示学习和图像分类中实施的广泛实验,证明了 SAC 在减少内存成本的同时,可
→
PDF
4 years ago
基于注意力机制的语音识别模型
本研究提出了一种基于改进的注意力机制加上位置感知的模型,解决了长输入音频识别中的问题并且有效降低了音素错误率。
PDF
9 years ago
Prev
Next