流式序列标注的高效编码器

ACLJan, 2023

Efficient Encoders for Streaming Sequence Tagging

Ayush Kaushal, Aditya Gupta, Shyam Upadhyay, Manaal Faruqui

TL;DR该研究提出了一种名为 HEAR 的混合编码器，它具有自适应重启模块，可用于流式序列标记任务，能够在维持初始双向编码器性能的同时，提高流式输入的性能，并在节省高达 71.1% 的 FLOP 以及在准确度方面优于双向编码器 10% 的数据集上，得到良好的流式标记表现。

Abstract

A naive application of state-of-the-art bidirectional encoders for streaming sequence tagging would require encoding each token from scratch for each new token in an incremental streaming input (like transcribed speech). The lack of re-usability of previous computation leads to a highe

hybrid encoder adaptive restart sequence tagging streaming performance flop saving

发现论文，激发创造

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

BERT4Rec: 使用 Transformer 的双向编码器表示进行序列推荐

利用双向编码表示从历史行为中建模用户的动态演变偏好对于推荐系统至关重要，我们通过使用 Cloze 任务对历史序列项进行联合编码来解决这个问题，并在四个基准数据集上展开广泛实验，结果显示我们的模型在各种顺序模型中表现出色。

Apr, 2019

语言理解用的可调节延迟的 Transformer 编码器

本文提出了一种可以自适应地调整推论计算成本的高效 Transformer 架构，包括 Attention Context Contribution（ACC）度量和新的策略，可用于 BERTbase 模型的微调，并且使得推论延迟提高了 4.8 倍，并且精度下降少于 0.75％。

Jan, 2022

流式并行传感器束搜索算法及快慢级联编码器

该研究提出了在流式自动语音识别中应用串联有因果和非因果编码器的方法，并使用两个有不同输入上下文大小和以不同的音频间隔产生输出的流式非因果编码器进行改进；同时提出了一种新的并行时间同步波束搜索算法。研究结果表明，在公共数据集 Librispeech 和内部数据集上，该算法在稍微增加音节延迟的情况下，实现 WER 降低 20％左右，并探索了分布式处理和共享参数降低内存占用的技术，以实现低计算成本和低内存占用的边缘设备上的低延迟处理。

Mar, 2022

非递增编码器时代的增量处理：双向模型在增量自然语言理解中的实证评估

研究了在交互系统中，使用增量接口对双向编码器进行逐步处理的可能性，结果支持可以保留大部分双向编码器非增量质量。

Oct, 2020

通过同步实现长序列高效编码

本研究提出一种基于同步机制的层次编码方法，将长的输入序列分段处理并在 Transformer 层内利用自注意力机制对锚点嵌入进行同步，从而改善了不同类型长输入文本数据的全局信息交流。

Mar, 2022

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020