编码器解码器模型中的长度偏差与全局条件案例

Jun, 2016

编码器解码器模型中的长度偏差与全局条件案例

Length bias in Encoder Decoder Models and a Case for Global Conditioning

Pavel Sountsov, Sunita Sarawagi

TL;DR本文探讨了编码 - 解码神经网络在长序列预测上的局限性以及导致此现象的原因，并提出了一种全局条件模型，可以有效地缓解这种偏差并且无需 beam-search。

Abstract

encoder-decoder networks are popular for modeling sequences probabilistically in many applications. These models use the power of the long short-term memory (LSTM) architecture to capture the full dependence amon

encoder-decoder long short-term memory conditionally independent locally conditioned training objective globally conditioned model

发现论文，激发创造

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

神经编码器 - 解码器中的输出长度控制

本文提出两种基于解码和两种基于学习的方法，用于控制神经编码器 - 解码器模型的输出序列长度，结果表明学习方法在摘要生成任务中具有控制长度而不降低摘要质量的能力。

Sep, 2016

基于序列标注的语音理解中采用聚焦机制的编码器 - 解码器模型

本文介绍了基于编码器 - 解码器与注意力机制的序列标注语音理解的框架。提出了双向长短时记忆 - 长短时记忆网络（BLSTM-LSTM）作为编码器 - 解码器模型。针对 attention 机制无法提供准确对齐的问题，我们提出了一种新的焦点机制。在标准 ATIS 数据集上的实验表明，BLSTM-LSTM 配合焦点机制超越了标准的 BLSTM 与即便是 attention 机制的编码器 - 解码器模型，同时这种模型有更强的抗语音识别错误能力。

Aug, 2016

评估序列到序列模型的增量性

该研究提出三个新的指标以评估具有和不具有注意力机制的 RNN 的行为，发现不同模型类型处理句子的方式存在关键差异，这揭示了人类和注意力中心方法在语言处理方面的行为上存在的显著对比。

Jun, 2019

抽象式摘要全球编码

本研究提出了一种全局编码框架，用于控制源上下文的全局信息并降低了重复现象，经过对 LCSTS 和英文 Gigaword 的评估，该模型优于基线模型。

May, 2018

面向百万级依赖建模的长序列模型的统一视图

本文探讨了 Transformers 在长序列建模中的应用，并提出了一种处理百万级依赖关系的机器学习系统，其中的分布式多头注意力机制可提高 40 倍的计算效率。

Feb, 2023

长上下文 NLP 模型中效率与准确性的权衡特征

本文对自然语言处理中的长文本序列建模技术进行了深入的研究，通过使用两种常见的长序列模型 ——LED 和 Big Bird，实验分析了模型大小、输入序列长度等因素对其性能表现的影响。发现在精准性、速度和能耗之间存在着权衡，其中 LED 模型在较低的能耗代价下达到了更好的精确度，且模型的性能表现受到超参数的影响。同时，当模型大小和输入序列长度发生变化时，我们还发现了在文本摘要和问答场景下不同的性能优化策略。

Apr, 2022

基于 LSTM 编码器 - 解码器的车辆轨迹序列预测

本文提出了一种基于深度学习的，可以实时生成周围车辆未来轨迹序列的车辆轨迹预测技术。通过利用编码器 - 解码器结构和使用基于长短期记忆（LSTM）的编码器分析过去轨迹中的模式，使用 LSTM 解码器生成未来轨迹序列。使用束搜索技术从解码器的输出中保留 K 个局部最优解，产生 K 个最可能的轨迹候选项。在高速公路交通场景下进行的实验表明，所提出的方法的预测精度显著高于传统的轨迹预测技术。

Feb, 2018

采用重新阅读和复制机制的高效摘要生成

本文提出了一种新的 encoder-decoder 模型来解决 NLP 中的 sequence to sequence prediction 任务，新模型考虑了整个输入序列并引入复制机制来有效处理小样本集和 OOV 问题。在 Gigaword 数据集和 DUC 竞赛中，该模型的性能超过了现有模型。

Nov, 2016

仅解码器还是编码器 - 解码器？将语言模型解释为规则化的编码器 - 解码器

本文通过对传统 encoder-decoder 和 decoder-only language model 结构的对比分析，揭示了 decoder-only language model 存在的注意力退化问题，并提出了 partial attention language model 来解决这一问题。

Apr, 2023