Transformer 语言模型的动态评估
提出了一种名为 Transformer-XL 的神经架构,它能够在语言模型的设定中超越固定长度的依赖关系,并且不会破坏时间上的一致性。通过分段级别的循环机制和一种新颖的位置编码方案,Transformer-XL 不仅能够捕捉更长期的依赖关系,而且还解决了上下文破碎问题。在评估期间,它的速度比普通的 Transformers 要快 1,800 多倍,并且在短序列和长序列上表现更好。实验结果显示,在多个语料库上,Transformer-XL 都比目前的最先进结果表现要好。
Jan, 2019
使用变压器架构生成、评估和训练数学表达式,将其作为字符级序列转换任务进行分析,建立在关注机制上的编码器和解码器上。三个模型分别被训练在数学符号变量和表达式的理解和评估上,最终达到了测试准确率高达 76.1%、78.8% 和 84.9%。
Dec, 2018
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体,实现 1.13 和 1.06 的最小比特位 (bit per character)。
Aug, 2018
研究表明,Transformer-XL 语言模型在预测超出其训练期的未来话语时,性能会随着时间的推移而逐渐降低。基于此,提出了动态语言建模的思路,并通过不断更新知识来缓解性能退化问题。因此,应重新思考我们目前培训和评估语言模型的方法,并发展出适应我们日益变化和非稳定的世界的自适应语言模型。
Feb, 2021
使用贝叶斯学习框架和变分推断优化,提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。
Feb, 2021
本篇论文针对 Transformer 架构不足以高效融合语言建模所需的单词级序列上下文,提出了在保持计算效率的同时通过添加额外的 LSTM 层能够更好地捕捉顺序上下文的有效 Transformer 架构,其中 Coordinate Architecture Search(CAS)通过迭代模型的精炼来找到一个有效的架构,实验结果表明 CAS 在所有问题上的 perplexities 达到了 20.42 ~ 34.11,即比最先进的 LSTM 提高了 12.0 perplexity 单位。
Apr, 2019
本文研究了基于深度自回归 Transformer 模型在语言建模和语音识别中的应用,探索了配置 Transformer 模型进行语言建模的方法和深度 Transformer 语言模型是否需要位置编码,证明了深度 Transformer 语言模型可以自动利用序列中的位置信息,并能在语音识别模型中得到应用。
May, 2019