用于不确定输入的神经格点序列模型

EMNLPApr, 2017

用于不确定输入的神经格点序列模型

Neural Lattice-to-Sequence Models for Uncertain Inputs

Matthias Sperber, Graham Neubig, Jan Niehues, Alex Waibel

TL;DR研究使用基于树结构的神经网络模型作为编码器建立语音翻译模型，使用词汇图来代替输入，可以提高翻译准确性。

Abstract

The input to a neural sequence-to-sequence model is often determined by an up-stream system, e.g. a word segmenter, part of speech tagger, or speech recognizer. These up-stream models are potentially error-prone. Representing inputs through →

neural sequence-to-sequence model word lattices treelstm attentional encoder-decoder model speech translation

发现论文，激发创造

基于自注意力机制的格点输入模型

使用自注意力机制来扩展以往基于循环神经网络的图输入的方法，以处理上游系统中自然语言处理任务的歧义度，进而有效地提高语音翻译任务的性能。

Jun, 2019

用于语音翻译的格点变换器

本研究提出了一种基于 lattice transformer 和 controllable lattice attention mechanism 的机器翻译方法，其应用于语音翻译任务时，在多条路径和后验分数的支持下，可以更好地泛化并取得更好的翻译结果。同时，在应用于 WMT 2017 中英翻译任务时，也可以取得优于基线的成果。

Jun, 2019

神经格点语言模型

提出了一种名为神经格栅语言模型的新的语言建模方法，该方法在多个层次上具有信息预测和调节的能力，并通过对可能路径的格栅进行边际化以计算序列概率或优化参数。实验证明，使用多义词嵌入的英语神经格栅语言模型能够将困惑度相对于单词层面基线提高 9.95％，而处理多字符标记的中文模型能够将困惑度相对于字符层面基线提高 20.94％。

Mar, 2018

基于格的循环神经网络编码器用于神经机器翻译

该论文提出了一种基于词格的循环神经网络编码器用于解决中文等没有自然词分界符的语言在神经机器翻译中遇到的问题，该编码器不仅可以缓解对分词错误的负面影响，还具有更高的表达和灵活性。实验结果表明，该编码器优于传统编码器。

Sep, 2016

基于格点的 Transformer 编码器用于神经机器翻译

通过引入基于格的编码器，本研究旨在探索有效的单词或子单词表示形式，进而提高基于 Transformer 的神经机器翻译的性能。实验证明，这种新型编码器在单词水平和子单词水平的表示方面优于传统的 Transformer 编码器。

Jun, 2019

基于 Lattice LSTM 的中文命名实体识别

本文研究了一种基于格子结构的 LSTM 模型用于汉语命名实体识别，在编码一系列输入字符的同时，还编码与词典匹配的所有潜在词。与基于字符的方法相比，我们的模型明确利用了单词和单词序列信息。与基于单词的方法相比，格内 LSTM 不受分割错误的影响。门控循环单元允许我们的模型从句子中选择最相关的字符和单词以达到更好的命名实体识别结果。各种数据集上的实验表明了格内 LSTM 优于基于单词和字符的 LSTM 基线，取得了最佳结果。

May, 2018

将预训练 Transformer 适应于格上，以进行口语语言理解

本篇论文旨在将 Transformer 预训练模型适应于格输入以执行口语理解任务，并在 ATIS 基准数据集上进行了实验，结果表明，将预训练的 Transformers fine-tuning 用于格输入比用于 1-best 结果有了显著改进，证明了方法的有效性。

Nov, 2020

使用格点进行大规模文本生成的解码

本研究提出了一种搜索算法，采用重构解码作为最佳优先搜索，并重新考虑了假设重组的想法，通过在搜索期间识别并合并相似的文本生成候选项，构建了许多多样化的文本生成选项，并在文本摘要和机器翻译上表现出很好的效果。

Dec, 2021

基于 Lattice LSTM 的中文分词的子词编码

本文研究了一种基于格子结构的长短时记忆网络，通过与词典匹配子序列信息实现对中文分词的支持，并通过对比 Word Encoding 和 Subword Encoding 两种编码方式表明 Subword Encoding 更具优势。结果表明本文提出的模型在四个分词基准测试中表现出与先前最先进的方法相当甚至更好的结果，并对其表现和性能进行了深入分析。

Oct, 2018

用神经晶格语言模型学习口语表述

本文旨在将语言模型预训练方法推广到语音识别产生的 'lattice' 上。通过提出具有两阶段预训练的神经网络 lattice 语言模型，此研究在意图检测和对话行为识别数据集上证明了其在处理口语输入任务中的优势。

Jul, 2020