序列到序列学习作为 Beam-Search 优化
本文介绍最近相结合的 seq2seq,深度神经网络和加强学习模型,考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题,提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题,并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。
May, 2018
本研究从网络结构、训练策略和摘要生成算法三个方面全面综述了不同的 seq2seq 模型用于文本摘要生成的研究,并提出了一个名为 NATS 的开源工具包进行研究,对 CNN / Daily Mail 数据集进行了广泛的实验检验,在 Newsroom 和 Bytecup 数据集上测试了两个模型。
Dec, 2018
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
本文提出使用多语言数据建立先前模型,结合迁移学习的方法,通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别,同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现,实验结果表明,将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度,并且加入 RNNLM 辅助也可以带来显著的性能提升。
Oct, 2018
本论文提出了一种新颖的通用端对端图到序列神经编解码模型,该模型使用改进的基于图神经网络的聚合策略产生节点和图嵌入,引入了注意机制,实现了更好地处理大型图,并在多项任务中取得了最先进的性能,显著优于现有的图神经网络、Seq2Seq 和 Tree2Seq 模型。
Apr, 2018
探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性,通过两种不同的点对点学习方法模拟代理学习过程,并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中,使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时,识别误差率 (Word Error Rate, WER) 为 84%,在 LJ Speech 数据集上训练时为 38%。然而,通过 55 个代理进行点对点学习,并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时,WER 在 UserLibri 数据集上的范围为 87% 至 92%,在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明,在分散式训练环境中使用 Seq2Seq 模型是可行的,尽管识别误差率 (WER) 稍高于集中式训练方法。
May, 2024
通过实验证明,Seq2Seq 模型在英语句法分析、语义分析和文本之间的转换任务中,普遍存在推广的普适性较低的问题,但是在建立了语言知识的神经符号模型中,这些限制往往可以克服。
Oct, 2022
该研究提出了一个新颖的抽象式单文档文本摘要框架,融合了结构、语义和基于神经网络的方法,通过结合机器学习和基于知识的技术实现了一种统一的方法。实验证明了该框架在处理罕见和未登录词方面的显著改进,优于现有的深度学习技术。
Apr, 2024
提出了一种新的序列级训练算法,使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标,并且在三个不同的任务中,我们的方法优于其他几种基准方法。同时,在其他基准方法使用波束搜索时,我们的方法也具有竞争力,而且速度快几倍。
Nov, 2015
本文提出了一种基于深度神经网络(DNN)的序列学习方法,使用多层长短时记忆(LSTM)解码目标序列并展现了其在英法翻译任务中优于传统短语模型翻译的成果,同时还发现调整源语句中单词的顺序可以有利于优化问题的解决。
Sep, 2014