有限状态转换器和语言模型的浅层融合用于文本规范化

Mar, 2022

有限状态转换器和语言模型的浅层融合用于文本规范化

Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization

Evelina Bakhturina, Yang Zhang, Boris Ginsburg

TL;DR该研究提出了一种基于加权有限状态转换器和神经语言模型的混合方法，以解决文本归一化的上下文依赖性问题。

Abstract

text normalization (TN) systems in production are largely rule-based using weighted finite-state transducers (WFST). However, WFST-based systems struggle with ambiguous input when the normalized form is context-d

text normalization weighted finite-state transducers neural text normalization hybrid approach language model

发现论文，激发创造

基于设备的流式快速精准逆文本规范化技术应用于自动语音识别

本文描述了一种轻量级、准确的现场 Inverse Text Normalization（ITN）系统，通过使用流式 Transformer 标记器和 ITN 分类特定的 WFST，可在标记的文本上可靠地执行 ITN 转换，比基线模型小得多且具有自定义能力。

Nov, 2022

可微分加权有限状态转换器

该论文提出了一种使用加权有限状态转录器（WFSTs）进行自动微分的框架，使它们可以在训练期间动态使用，该框架可以探索新的结构化损失函数并结合各种序列级损失函数使用剪枝和回退等方法，在字短语的潜在分解学习方面具有很大的优势，同时提出了一种卷积 WFST 层，可用作传统卷积层的替代，用于手写识别和语音识别的实验中表现良好。

Oct, 2020

RNN-Transducer 损失函数的强大可扩展 WFST 框架

本文提出了一种基于 WFST 框架的 RNN-T 损失简化开发的方案，并介绍了两种基于 WFST 的 RNN-T 实现，通过引入 W-RNNT 损失的示例说明了可扩展性优势，最终展示了 NeMo 工具包中所有实现的 RNN-T 损失。

Mar, 2023

面向端到端语音识别的神经 FST 类语言模型

提出了一种新方法 -- 神经 - FST 级语言模型（NFCLM），它将神经网络语言模型（NNLM）和有限状态转换器（FST）结合起来用于端到端语音识别，这种方法通过背景 NNLM 模拟通用背景文本和称为 FST 的一系列特定领域实体。

Jan, 2022

基于规则引导的平面格变换器的端到端中文文本规范化模型

提出了一种中文文本归一化模型，将规则中的专家知识融合到神经网络中，从而提高了性能。同时，公开了一份中文文本归一化的大规模数据集。

Mar, 2022

四合一：联合逆文本规范化、标点、大写和表达不流畅对于自动语音识别的方法

本文提出一种统一的自动语音转换为书写形式文本的方法，使用了一个两阶段的过程实现了逆文本规范化、标点符号、大写和不流畅的统一标注，然后使用权重有限状态转换器语法来格式化标注的 ITN 实体跨度。该方法在自然语言处理中的成果优于专门的模型。

Oct, 2022

基于分解神经传输器的外部语言模型集成

本文提出一种基于外部语言模型的分解神经传输器（FNT）适应方法，通过浅层融合和基于类别的 n-gram 语言模型的集成，取得了最高 60% WERR 的新增收益。

May, 2023

文本领域适应的改进因式化神经转导模型

通过设立独立语料库解码器预测词汇，改进因式神经变换器（IFNT）模型结构综合整合声学和语言信息，实现有效的文本适应，并在实验中展现了相对于标准神经变换器与浅层融合模型的 7.9% 至 28.5% 的相对词误率改善和相对于 FNT 模型的 1.6% 至 8.2% 的词误率降低。

Sep, 2023

用于端到端语音识别模型的文本适应的快速准确因式分解神经转录器

介绍了因文本数据处理能力有限而提出的 FNT 模型及其在语音识别领域中的存在意义，并提出了多种方法来优化模型性能，使用这些方法后，相比于标准 FNT 模型，模型的错误率下降了 9.48%。

Dec, 2022

文本转语音中的非标准越南语词语检测和规范化

本文提出了一种新的两阶段文本标准化方法解决语音合成中的 NSWs（数字，日期，范围，分数，缩写，URL，电子邮件，哈希标签和联系人名字）语义歧义和发音问题。第一个阶段使用基于模型的标注器检测 NSWs，第二个阶段使用基于正向词典的最大匹配算法将哈希标签，电子邮件地址和联系人名字等 NSWs 拆分为发音形式。实验结果表明，该方法的错误率较低，达到 6.67％。

Sep, 2022