交叉注意力端到端语音识别技术在双方对话中的应用
本研究致力于解决单声道多说话者对话转写和翻译问题,提出了一种名为 Speaker-Turn Aware Conversational Speech Translation 的端到端多任务训练模型,通过在序列化标注格式中使用特殊标记来结合自动语音识别、语音翻译和说话者转换检测。在针对多说话者条件的实验中,我们使用合并了两个单声道通道的 Fisher-CALLHOME 语料库,以更真实和具有挑战性的场景来评估模型性能,实验结果表明我们的模型在多说话者条件下优于传统说话者转写系统,并且在单说话者条件下表现相当。同时,我们还提供了数据处理和模型训练的脚本。
Nov, 2023
本文提出了一种最先进的单声道多说话者端到端自动语音识别模型,通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能,实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。
Nov, 2018
本研究提出了一种对话上下文感知的语音识别模型,该模型可以在端到端的方式下明确地使用除句子级别信息以外的上下文信息,以使整个系统能够被训练得更好并表现得更优秀。我们在 Switchboard 交谈语音语料库上评估了我们的方法并显示出优于可比较的句子级端到端语音识别系统的效果。
Aug, 2018
本文提出基于 Conformer 的端到端神经口头日记(EEND)模型,该模型利用从自动语音识别(ASR)模型导出的语音输入和特征。通过将 ASR 特征与声学特征相结合,采用新的自注意力机制来建立鲁棒的说话人表示,并使用多任务学习来最小化 ASR 特征的分类损失和日记化损失,将其应用于 Switchboard+SRE 数据集上的两个讲话人英语对话中,相对于基线,利用 ASR 特征的多任务学习最有效,在词汇位置信息下将 DER 降低了 20%。
Feb, 2022
通过引入跨模态对话表示,结合预训练的语音和文本模型,扩展 Conformer 编码器 - 解码器模型,我们的方法能够提取更丰富的历史语音上下文,实现较标准 Conformer 模型相对准确度提升 8.8%(HKUST)和 23%(MagicData-RAMC)的结果。
Oct, 2023
本文提出了一种基于 Transformer 的端到端架构方法,在自动语音识别中精确建模跨话语的语境依赖,通过引入上下文感知残余注意机制,对先前语音的上下文进行编码,同时,还采用条件解码器框架将历史语言信息融入到当前预测中,结果表明该方法在几种公开对话语料库上都取得了持续的改进
Jul, 2022
通过多任务训练,提出了一种使用两个注意力机制的端到端可训练模型,用于直接语音翻译。该模型明显优于其他基线模型,并能更有效地利用辅助训练数据,特别适合于多任务训练。
Apr, 2019
本文提出了基于掩码注意力和异构图网络的增强型说话人感知模型,以全面捕捉对话线索,实验结果展示了我们说话人感知模型在基准数据集 Molweni 上取得了最先进的表现,案例分析表明我们的模型增强了话语与说话人之间的联系,并捕捉到了说话人感知的对话关系,对话建模至关重要。
Sep, 2021
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019