语音模型中的大写和交替预测注入方法

Aug, 2023

语音模型中的大写和交替预测注入方法

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models

Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang...

TL;DR本研究通过使用文本注入算法来训练自动语音识别模型，以解决长尾数据的大写问题，并改善对话机器人中的交互转移预测。

Abstract

text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the u

text injection automatic speech recognition auxiliary tasks end-to-end and internal language model capitalization

发现论文，激发创造

神经背景性偏倚的文本插入

通过上下文中注入文本的方式，使用大规模未配对的文本来优化自动语音识别（ASR）模型及其偏置成分，提高重要短语的识别准确率。实验证明，使用 1000 亿个文本句子进行 CTI，相对于强大的神经偏置模型，可以实现高达 43.3% 的相对词错误率的降低。CTI-MWER 进一步提供了 23.5% 的相对改进。

Jun, 2024

利用文本注入改善语音中个人标识符的识别

通过文本注入方法，在训练数据中包含个人可识别信息的虚假文本替代物，以提高个人可识别信息类别在医疗笔记中的识别，并改善自动语音识别模型的识别准确性。

Aug, 2023

利用非成对文本数据训练端到端语音意图系统

本文探讨了使用 ASR 模型和 NLU 文本资源作为初始化及数据增广的方法，用以训练一个端到端的语音 - to - 意图系统，以减少数据稀疏问题。在实验中，作者通过改进后的 CTC-S2I 系统，使其与传统的级联式 SLU 系统具有相当的匹配性能。

Oct, 2020

四合一：联合逆文本规范化、标点、大写和表达不流畅对于自动语音识别的方法

本文提出一种统一的自动语音转换为书写形式文本的方法，使用了一个两阶段的过程实现了逆文本规范化、标点符号、大写和不流畅的统一标注，然后使用权重有限状态转换器语法来格式化标注的 ITN 实体跨度。该方法在自然语言处理中的成果优于专门的模型。

Oct, 2022

基于反向翻译的端到端自动语音识别数据增强

通过使用神经网络从大量未成对的文本中生成隐藏状态并重新训练 E2E-ASR 解码器，实现数据增强的自动语音识别方法，提高了性能和减少了未知词的数量。

Jul, 2018

具有有限数量丰富训练数据的端到端联合丰富和标准化 ASR

比较了两种方法来训练具有有限数量的丰富标签数据的无状态变换器的端到端联合丰富和规范自动语音识别系统，其中第一种方法使用语言模型生成规范化训练数据的伪丰富转录，第二种方法使用单个解码器以输出类型为条件。第一种方法提供了更好的外域数据性能，相对误差减少了 9%。第二种方法展示了使用低至 5% 丰富训练数据的端到端联合丰富和规范自动语音识别系统的可行性，误差增加了 2.42% 绝对值。

Nov, 2023

使用统一的语音与文本编码器 - 解码器来改善 ASR

本研究利用外部文本数据提高自动语音识别的性能，探讨了一种方法，在共享解码器和编码器部分的集合中，联合训练自动语音识别和掩码语言模型。经实验验证，该方法在测试中取得了非常好的效果，耗时不增加。

Feb, 2022

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022

自监督语音预训练中的文本注入

这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法，该方法通过同时从语音和文本两个模态中学习表示，将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成，有效学习未经转录的语音和未说出的文本，并通过额外的序列损失项在语音编码器中强制执行词汇学习，最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10％的误差率降低。

Aug, 2021

训练对话模型以更好地处理语音识别错误的数据增强

本文探讨了通过数据增强的方法，将 ASR 的噪声注入到对话模型的训练数据中，以提高虚拟助手的稳定性。

Jun, 2020