交叉注意力端到端语音识别技术在双方对话中的应用

Jul, 2019

交叉注意力端到端语音识别技术在双方对话中的应用

Cross-Attention End-to-End ASR for Two-Party Conversations

Suyoun Kim, Siddharth Dalmia, Florian Metze

TL;DR本文提出一种利用端到端方法，基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话，并在 Switchboard 对话语音库上进行了评估，表现出优异的性能。

Abstract

We present an end-to-end speech recognition model that learns interaction between two speakers based on the turn-changing information. Unlike conventional →

speech recognition conversation turn-changing information end-to-end model cross-attention mechanism

发现论文，激发创造

端到端单通道说话者转换感知的会话语音翻译

本研究致力于解决单声道多说话者对话转写和翻译问题，提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型，通过在序列化标注格式中使用特殊标记来结合自动语音识别、语音翻译和说话者转换检测。在针对多说话者条件的实验中，我们使用合并了两个单声道通道的 Fisher-CALLHOME 语料库，以更真实和具有挑战性的场景来评估模型性能，实验结果表明我们的模型在多说话者条件下优于传统说话者转写系统，并且在单说话者条件下表现相当。同时，我们还提供了数据处理和模型训练的脚本。

Nov, 2023

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

上下文感知的端到端语音识别

本研究提出了一种对话上下文感知的语音识别模型，该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息，以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。

Aug, 2018

基于 ASR 的端到端神经化分离

本文提出基于 Conformer 的端到端神经口头日记（EEND）模型，该模型利用从自动语音识别（ASR）模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合，采用新的自注意力机制来建立鲁棒的说话人表示，并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失，将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中，相对于基线，利用 ASR 特征的多任务学习最有效，在词汇位置信息下将 DER 降低了 20％。

Feb, 2022

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于 Transformer 的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

用于稳健和高效数据的端到端语音翻译的关注传递模型

通过多任务训练，提出了一种使用两个注意力机制的端到端可训练模型，用于直接语音翻译。该模型明显优于其他基线模型，并能更有效地利用辅助训练数据，特别适合于多任务训练。

Apr, 2019

增强型说话者感知多方多轮对话理解

本文提出了基于掩码注意力和异构图网络的增强型说话人感知模型，以全面捕捉对话线索，实验结果展示了我们说话人感知模型在基准数据集 Molweni 上取得了最先进的表现，案例分析表明我们的模型增强了话语与说话人之间的联系，并捕捉到了说话人感知的对话关系，对话建模至关重要。

Sep, 2021

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

端到端联合识别非目标发言人与目标发言人的自动语音识别

本文提出一种新颖的自动语音识别系统，能够在多人重叠说话的情况下转录出单个说话者的发言，同时识别他们是目标还是非目标说话者。

Jun, 2023