动态压缩中的流式序列转导

Feb, 2024

Streaming Sequence Transduction through Dynamic Compression

Weiting Tan, Yunmo Chen, Tongfei Chen, Guanghui Qin, Haoran Xu...

TL;DRSTAR 是一种基于 Transformer 的模型，用于在流数据上进行高效的序列转换。通过动态分割输入流创建压缩的锚点表示，STAR 在自动语音识别（ASR）中实现几乎无损压缩（12 倍），并优于现有方法。此外，在同时进行语音到文本任务中，STAR 展示出卓越的分割和延迟 - 质量权衡，优化延迟、内存占用和质量。

Abstract

We introduce star (Stream Transduction with Anchor Representations), a novel transformer-based model designed for efficient sequence-to-sequence transduction over streams. →

star transformer-based model sequence-to-sequence transduction automatic speech recognition simultaneous speech-to-text tasks

发现论文，激发创造

STaR: 为轻量级语音自监督学习模型提取语音时序相关性

通过使用 STaR（speech temporal relation）蒸馏方法，能够在参数较少的情况下压缩和保持语音自监督学习模型的表现，该方法适用于不同的语音自监督学习模型并具有鲁棒的性能。

Dec, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码 Transformer 模型，具有更好的延迟和质量平衡。

Oct, 2020

STAR-Transformer：面向人类动作识别的时空交叉注意力变压器

提出一种名为 STAR-transformer 的模型，该模型可以有效地表示两个跨模态特征为可识别的矢量，并学习到一种高效的多功能特征表示方法。在动作识别领域中，STAR-transformer 的效果显著优于之前的最先进方法。

Oct, 2022

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

开发用于大规模数据集实时流式转换器转导器的语音识别系统

本文介绍了一种基于 Transform-XL 的可流式 Transformer-Transducer 模型的应用，用于语音识别中的低延迟且快速编码，比混合模型、RNN-Transducer 和流式 Transformer - 基于注意力的编码器 - 解码器模型具有更好的性能。

Oct, 2020