用于时间延迟神经网络中的多模态声学和文本嵌入标点恢复的高效集成架构

Feb, 2023

用于时间延迟神经网络中的多模态声学和文本嵌入标点恢复的高效集成架构

Efficient Ensemble Architecture for Multimodal Acoustic and Textual Embeddings in Punctuation Restoration using Time-Delay Neural Networks

PDF

Xing Yi Liu, Homayoon Beigi

TL;DREfficientPunct 使用多模时间延迟神经网络实现标点符号的恢复，它在性能和效率方面都创造了新的最佳结果，其中使用 BERT 纯文本嵌入的预测的权重略高于多模网络的预测。

Abstract

punctuation restoration plays an essential role in the post-processing procedure of automatic speech recognition, but model efficiency is a key requirement for this task. To that end, we present →

punctuation restoration automatic speech recognition efficientpunct multimodal time-delay neural network performance

发现论文，激发创造

面向对话语音标点预测的多模态半监督学习框架

本研究探索一种多模态半监督学习方法，通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明，使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9％和 3-4％的绝对改进（F1 分数），数据增广也可以使模型对 ASR 错误更加鲁棒。

Aug, 2020

带标点的端到端流式自动语音识别模型的改进训练

本文提出了一种基于 Transformer 编码器和 CTC loss 的方法，实现对输入语音的标点文本进行预测，并通过对文本分块和话语的 CTC 损失组合，提高了标点预测的准确性和单词错误率。

Jun, 2023

混合语言语料统一多模态标点修复框架

本文介绍了一种名为 UniPunc 的多模态标点恢复框架，使用混合样本并基于共享潜在空间学习混合表示来标点。该模型在真实世界数据集中的表现优于各种强基线模型（例如 BERT，MuSe）至少 0.8 个整体 F1 得分，成为新的最先进技术。

Jan, 2022

端到端语音标点文本识别

本研究提出了一种基于端到端模型的自动语音识别系统，利用声学信息和多任务学习技术来实现对文本标点符号的准确预测，相较之于传统级联式的标点预测系统，准确率更高，同时也大大减少了参数数。

Jul, 2022

面向会话语音的标点符号预测模型

本文通过训练基于深度神经网络技术的双向长短期记忆网络（BLSTM）和卷积神经网络（CNN）的序列标注模型，来解决语音识别系统中无法正常预测标点符号的问题，并且通过在 Fisher 语料库上的实验证明，基于卷积神经网络预测标点符号的方法更加精确。同时，本文结果表明，将 Fisher 语料库转化为时间对齐的文本以及采用预训练嵌入模型可以提高标点预测的准确性。

Jul, 2018

标点复原的对抗迁移学习

本研究旨在解决文本标点还原中词向量只包含从左到右上下文信息和外部词性标注器的不足。为此，引入敌对式迁移学习和多任务联合学习，将预训练双向编码器表示模型用于初始化标点模型，利用多个任务的学习提高模型效果，在 IWSLT2011 数据集上进行实验，结果表明本文提出的模型相较于以往基于词法特征的模型，在测试集上的 F1-score 表现提高了 9.2%。

Apr, 2020

通过数据生成和强化学习提升标点恢复

这篇研究论文提出了一种强化学习方法，利用主题相关的书面文本和最新的大规模预训练生成式语言模型，来填补自动语音识别中书面文本和语音识别文本之间的差距，并在标点恢复的两个基准数据集上取得了最先进的性能。

Jul, 2023

自发对话中的标点预测：我们能否使用修正后的单词嵌入减缓 ASR 错误？

本研究提出了一种使用领域特定数据的词嵌入法来改善 ASR 系统引入的同音词误差对标点预测的影响，并在标点预测任务中实验证明其可降低同音词误差带来的影响，相较最先进模型，在句号等标点预测准确率上提升达 9%。

Apr, 2020

BERT 模型自动标点恢复

本研究利用 BERT 模型自动还原英语和匈牙利语的标点符号，并通过 Ted Talks 和 Szeged Treebank 数据集的实验验证，得出在英语和匈牙利语上分别达到了 79.8 和 82.2 的宏平均 $F_1$- 分数。

Jan, 2021

基于 Transformer 的长篇口述流式标点

本文提出了一种使用动态解码窗口的流式标点或重新标点的自动语音识别输出方法，并测量了其对标点和分段准确性的影响。新系统解决了过度分段的问题，提高了分段 F0.5 得分 13.9%。流式标点平均提高了 0.66 的 BLEU 分数，适用于机器翻译领域。

Oct, 2022