本文描述了一种轻量级、准确的现场 Inverse Text Normalization(ITN)系统,通过使用流式 Transformer 标记器和 ITN 分类特定的 WFST,可在标记的文本上可靠地执行 ITN 转换,比基线模型小得多且具有自定义能力。
Nov, 2022
该论文提出了一种使用加权有限状态转录器(WFSTs)进行自动微分的框架,使它们可以在训练期间动态使用,该框架可以探索新的结构化损失函数并结合各种序列级损失函数使用剪枝和回退等方法,在字短语的潜在分解学习方面具有很大的优势,同时提出了一种卷积 WFST 层,可用作传统卷积层的替代,用于手写识别和语音识别的实验中表现良好。
Oct, 2020
本文提出了一种基于 WFST 框架的 RNN-T 损失简化开发的方案,并介绍了两种基于 WFST 的 RNN-T 实现,通过引入 W-RNNT 损失的示例说明了可扩展性优势,最终展示了 NeMo 工具包中所有实现的 RNN-T 损失。
Mar, 2023
提出了一种新方法 -- 神经 - FST 级语言模型(NFCLM),它将神经网络语言模型(NNLM)和有限状态转换器(FST)结合起来用于端到端语音识别,这种方法通过背景 NNLM 模拟通用背景文本和称为 FST 的一系列特定领域实体 。
Jan, 2022
提出了一种中文文本归一化模型,将规则中的专家知识融合到神经网络中,从而提高了性能。同时,公开了一份中文文本归一化的大规模数据集。
Mar, 2022
本文提出一种统一的自动语音转换为书写形式文本的方法,使用了一个两阶段的过程实现了逆文本规范化、标点符号、大写和不流畅的统一标注,然后使用权重有限状态转换器语法来格式化标注的 ITN 实体跨度。该方法在自然语言处理中的成果优于专门的模型。
Oct, 2022
本文提出一种基于外部语言模型的分解神经传输器(FNT)适应方法,通过浅层融合和基于类别的 n-gram 语言模型的集成,取得了最高 60% WERR 的新增收益。
May, 2023
通过设立独立语料库解码器预测词汇,改进因式神经变换器(IFNT)模型结构综合整合声学和语言信息,实现有效的文本适应,并在实验中展现了相对于标准神经变换器与浅层融合模型的 7.9% 至 28.5% 的相对词误率改善和相对于 FNT 模型的 1.6% 至 8.2% 的词误率降低。
Sep, 2023
介绍了因文本数据处理能力有限而提出的 FNT 模型及其在语音识别领域中的存在意义,并提出了多种方法来优化模型性能,使用这些方法后,相比于标准 FNT 模型,模型的错误率下降了 9.48%。
Dec, 2022
本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs(数字,日期,范围,分数,缩写,URL,电子邮件,哈希标签和联系人名字)语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs,第二个阶段使用基于正向词典的最大匹配算法将哈希标签,电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明,该方法的错误率较低,达到 6.67%。
Sep, 2022