神经序列模型端到端训练的连续松弛束搜索

Aug, 2017

神经序列模型端到端训练的连续松弛束搜索

A Continuous Relaxation of Beam Search for End-to-end Training of Neural Sequence Models

Kartik Goyal, Graham Neubig, Chris Dyer, Taylor Berg-Kirkpatrick

TL;DR本报告提出了一种新的神经序列模型的训练方法来更好地利用束搜索算法，该方法通过引入介绍连续逼近束搜索的新方法来形成一个次微分的替代目标，在 Named Entity Recognition 和 CCG Supertagging 两个序列任务的实验中，优化此新的训练目标能够比交叉熵训练的贪婪解码和交叉熵训练的束搜索解码基线都得到实质性的改善。

Abstract

beam search is a desirable choice of test-time decoding algorithm for neural sequence models because it potentially avoids search errors made by simpler greedy methods. However, typical cross entropy training pro

beam search neural sequence models training procedure decoding algorithm sub-differentiable surrogate objective

发现论文，激发创造

一种稳定有效的可训练贪婪解码学习策略

本文提出了一种灵活的新方法，利用一个小型的神经网络 actor 来观测和操纵先前训练的解码器的隐藏状态，以无需额外的计算成本获得几乎全部的 beam search 带来的好处。我们介绍了使用一个伪并行语料库来训练 actor 网络，它是以类似于 BLEU 的目标质量指标对基础模型的 beam search 输出排名而生成的。我们的方法受到了早期研究的启发，但不需要强化学习，并且可以可靠地在各种模型上训练。在三个平行语料库和三个架构上的实验表明，该方法可以使翻译质量和速度大大提高，超过每个基础系统。

Apr, 2018

用于序列到序列学习的经典结构化预测损失

本文研究了一系列经典目标函数，并将它们应用于神经序列到序列模型的训练，在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。

Nov, 2017

超越束搜索的机器翻译解码

本文探讨是否可以将 Beam Search 替换为更强大的以度量为驱动的搜索技术。通过对多个解码算法的探索和分析，发现最佳算法取决于目标度量的特性；作者提出的基于 Monte-Carlo Tree Search (MCTS) 的搜索方法在语言应用中具有很高的应用价值，为今后的研究方向提供了新视角。

Apr, 2021

神经序列模型的多样性束搜索：解码多样性解决方案

提出一种名为 Diverse Beam Search (DBS) 的算法，以优化多样性目标解码出一系列多样化的输出，旨在解决 Beam Search 算法在复杂人工智能任务解码过程中无法准确捕捉复杂任务本质的问题，并在图像字幕生成、机器翻译和视觉问答生成等任务中取得更好的性能表现。

Oct, 2016

突破束缚搜索：关于神经机器翻译评分方法和停止准则的研究

本文提出了几种方法解决 beam search 的扩展导致的机器翻译质量下降的问题，讨论了这些方法的最优停止准则，并展示了无超参数方法在中英翻译中的优异表现，超过了使用长度规范化启发式方法的 BLEU 值 2.0，并在所有方法中获得了最佳结果。

Aug, 2018

最佳优先束搜索

本文提出了一种有效启发式算法，用于近似搜索全输出空间中最佳解，解决了诸多自然语言处理任务中的难点问题，并为非单调性得分函数设计了有效的单调逼近方法，提出了一种内存缩减变体的最佳优先搜索，具有类似的有利搜索偏差，并在时限内运行。

Jul, 2020

可全微分的束搜索解码器

该研究提出了一种新的可微分束搜索解码器，通过推理过程在训练时间内进行优化，允许我们结合不同粒度的模型，并考虑两者之间的所有可能的对齐来处理未与输入序列对齐的目标序列。该系统具有端到端性，采用基于注意力机制的深度神经网络进行语音识别，而本研究表明，在训练一个声学模型的同时，联合明确且可能预训练的语言模型可以判别性地训练出一个更好的声学模型。

Feb, 2019

通过置信度放宽增强 ASR 解码

该论文提出了一种解码过程，改进了现有的基于 beam search 的自动语音识别系统中的缺陷，特别是针对最近提出的自监督学习（SSL）模型中高度自信的预测所带来的问题，并且不需要额外的训练以及模型参数，并且在低资源场景中实现了一致的改进。

Dec, 2022

超级标签中 Beam-Aware 训练的实证研究

本文实证研究了结构化预测方法中的基于局部标准化模型的最大似然训练和基于波束搜索的近似解码的问题，提出基于波束的训练算法来解决这一问题并探究了其对模型性能的影响与稳定性，结论表明波束训练可有效提高模型性能并建议模型学习中采用搜索以最大化模型效果。

Oct, 2020

神经文本生成的最优光束搜索（以光束大小为模）何时结束？

本文提出了一种可证明为最优的波束搜索算法，该算法可用于神经文本生成中，如神经机器翻译、摘要和图像字幕生成，通过引入有界长度奖励机制，避免了短假设的问题并提高了 BLEU 分数。

Aug, 2018