面向对话语音标点预测的多模态半监督学习框架

Aug, 2020

面向对话语音标点预测的多模态半监督学习框架

Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech

Monica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati, Katrin Kirchhoff

TL;DR本研究探索一种多模态半监督学习方法，通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明，使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9％和 3-4％的绝对改进（F1 分数），数据增广也可以使模型对 ASR 错误更加鲁棒。

Abstract

In this work, we explore a multimodal semi-supervised learning approach for punctuation prediction by learning representations from large amounts of unlabelled →

multimodal semi-supervised learning punctuation prediction audio and text data attention-based fusion data augmentation

发现论文，激发创造

面向会话语音的标点符号预测模型

本文通过训练基于深度神经网络技术的双向长短期记忆网络（BLSTM）和卷积神经网络（CNN）的序列标注模型，来解决语音识别系统中无法正常预测标点符号的问题，并且通过在 Fisher 语料库上的实验证明，基于卷积神经网络预测标点符号的方法更加精确。同时，本文结果表明，将 Fisher 语料库转化为时间对齐的文本以及采用预训练嵌入模型可以提高标点预测的准确性。

Jul, 2018

混合语言语料统一多模态标点修复框架

本文介绍了一种名为 UniPunc 的多模态标点恢复框架，使用混合样本并基于共享潜在空间学习混合表示来标点。该模型在真实世界数据集中的表现优于各种强基线模型（例如 BERT，MuSe）至少 0.8 个整体 F1 得分，成为新的最先进技术。

Jan, 2022

端到端语音标点文本识别

本研究提出了一种基于端到端模型的自动语音识别系统，利用声学信息和多任务学习技术来实现对文本标点符号的准确预测，相较之于传统级联式的标点预测系统，准确率更高，同时也大大减少了参数数。

Jul, 2022

双向语言模型在语义分割中改善长篇语音识别

通过从语言模型中提炼标点符号知识，并将其应用于分割长篇语音，我们研究出一种优于其他方法的，实现了 3.2% 相对词错误率增益以及 60ms 中位端到端延迟降低的流式自动语音识别管道分割器。

May, 2023

带标点的端到端流式自动语音识别模型的改进训练

本文提出了一种基于 Transformer 编码器和 CTC loss 的方法，实现对输入语音的标点文本进行预测，并通过对文本分块和话语的 CTC 损失组合，提高了标点预测的准确性和单词错误率。

Jun, 2023

用于时间延迟神经网络中的多模态声学和文本嵌入标点恢复的高效集成架构

EfficientPunct 使用多模时间延迟神经网络实现标点符号的恢复，它在性能和效率方面都创造了新的最佳结果，其中使用 BERT 纯文本嵌入的预测的权重略高于多模网络的预测。

Feb, 2023

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019

自发对话中的标点预测：我们能否使用修正后的单词嵌入减缓 ASR 错误？

本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响，并在标点预测任务中实验证明其可降低同音词误差带来的影响，相较最先进模型，在句号等标点预测准确率上提升达 9%。

Apr, 2020

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

基于 Transformer 的长篇口述流式标点

本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法，并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题，提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数，适用于机器翻译领域。

Oct, 2022