encoder-decoder networks are popular for modeling sequences probabilistically
in many applications. These models use the power of the long short-term memory
(LSTM) architecture to capture the full dependence amon
本文对自然语言处理中的长文本序列建模技术进行了深入的研究,通过使用两种常见的长序列模型 ——LED 和 Big Bird,实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡,其中 LED 模型在较低的能耗代价下达到了更好的精确度,且模型的性能表现受到超参数的影响。同时,当模型大小和输入序列长度发生变化时,我们还发现了在文本摘要和问答场景下不同的性能优化策略。
本文提出了一种基于深度学习的,可以实时生成周围车辆未来轨迹序列的车辆轨迹预测技术。通过利用编码器 - 解码器结构和使用基于长短期记忆(LSTM)的编码器分析过去轨迹中的模式,使用 LSTM 解码器生成未来轨迹序列。使用束搜索技术从解码器的输出中保留 K 个局部最优解,产生 K 个最可能的轨迹候选项。在高速公路交通场景下进行的实验表明,所提出的方法的预测精度显著高于传统的轨迹预测技术。
本文通过对传统 encoder-decoder 和 decoder-only language model 结构的对比分析,揭示了 decoder-only language model 存在的注意力退化问题,并提出了 partial attention language model 来解决这一问题。