分离 - 转换 - 分段器：多方语音的流式识别和分割

May, 2022

分离 - 转换 - 分段器：多方语音的流式识别和分割

Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party Speech

Ilya Sklyar, Anna Piunova, Christian Osendorfer

TL;DR提出了一种基于神经网络的新方法 ——STS，包括一种新的分割建模策略和一种新的发射规则方法 FastEmit 等，用于多方会谈的流媒体识别和分割。

Abstract

streaming recognition and segmentation of multi-party conversations with overlapping speech is crucial for the next generation of voice as

streaming recognition multi-party conversations speech separation segmentation neural network

发现论文，激发创造

端到端单通道说话者转换感知的会话语音翻译

本研究致力于解决单声道多说话者对话转写和翻译问题，提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型，通过在序列化标注格式中使用特殊标记来结合自动语音识别、语音翻译和说话者转换检测。在针对多说话者条件的实验中，我们使用合并了两个单声道通道的 Fisher-CALLHOME 语料库，以更真实和具有挑战性的场景来评估模型性能，实验结果表明我们的模型在多说话者条件下优于传统说话者转写系统，并且在单说话者条件下表现相当。同时，我们还提供了数据处理和模型训练的脚本。

Nov, 2023

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

端到端的说话人分割，针对重叠感知的重分割

提出了一种基于端到端模型的说话人分割方法，直接进行说话人划分，通过多标签分类解决此任务，同时可用于语音活动检测和重叠语音检测，且在多个数据集上都有显著的表现提升。

Apr, 2021

DiariST: 带有说话者分离的流式语音译文

该论文提出了 DiariST，第一个基于神经传感器的流式语音翻译和说话人分离解决方案，它集成了用于多说话人语音识别的标记级别序列化输出训练和 t 向量，通过新的评估数据集 DiariST-AliMeeting 和新的衡量 ST 质量的度量方法，实现了较强的 ST 和 SD 能力，并为此推出了离线基线系统和评估代码。

Sep, 2023

通过潜在对齐分段实现长篇连贯语音翻译

提出一种新的分割方法，用于低延迟的端到端同时语音翻译，并且在多种语言对和领域数据中显示出具有先进水平的质量。

Sep, 2023

3M-TRANSFORMER：用于体现式交替预测的多级多轮多模态 Transformer

使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况，在已引入的 EgoCom 数据集上进行实验，与现有的基线和替代基于 Transformer 的方法相比，平均性能显著提升了最高达 14.01%。

Oct, 2023

基于 Transformer-RNN-Transducer 的多任务学习和联合优化语音识别

本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法，证明了这些方法能够有效地降低字词错误率，从而保持大型文本语料库的信息。

Nov, 2020

轻量级音频分割用于长篇语音翻译

提出了一种小型模型的分段模型，使用 ASR 语音识别与标点任务作为前训练策略并将其整合到 ST 系统中，以提高语音翻译质量。

Jun, 2024