- DANCER: 实体描述增强的命名实体校正工具用于自动语音识别
提出了一种新颖的描述增强的命名实体纠正模型 DANCER,通过引入实体描述,提供额外信息帮助减轻语音识别中的音标混淆问题,对命名实体的字符错误率 (CER) 进行了有效减少。
- DSS:使用数据增强、样式编码和分段生成合成长数字墨水
使用对比学习技术改进训练数据、模型架构和推理过程,合成数字墨迹的长文本问题得以解决,可减少字符错误率,并通过人类研究证明生成数据真实可信。
- MUST: 低资源语音识别的多语种学生 - 教师学习方法
学生 - 教师学习或知识蒸馏已被用于解决言语识别系统训练中数据稀缺问题,本文提出了一种多语言学生 - 教师学习方法,通过使用预训练的映射模型将教师语言的 posterior 映射到学生语言的声学模型,将这些映射过程中的 posteriors - i 还是 l:文本行识别模型的测试时间适应
通过自我训练在测试时间适应模型的方法,在多个基准数据集和其受损版本上进行了严格评估,实验证明这种自我训练的方法在几次迭代后可以将字符错误率绝对改进高达 8%。
- 一个定制的中世纪拉丁手写文本识别系统
拜仁学院的中世纪拉丁字典数字化工作,采用了端到端的流水线,包括定位、提取和转录手写词条等步骤。使用最新的图像分割模型准备初始数据集,并尝试不同的基于 Transformer 的模型进行实验,采用丰富的数据增强技术,最佳设置的字符错误率为 0 - ACL关于日语语音识别的宽松评估:建模自然发生的拼写不一致性
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量,通过利用词汇量,文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
- 紧缩计算预算下数字墨水生成的采样与排序
通过研究数字墨水生成模型的多种采样和排名方法,本文提出了在计算预算内最大化输出质量的方法,这在英文、越南文和数学公式的多个数据集、两种模型类型和两种常见墨水数据表示中得到了证实,所有组合中,这都可以使合成墨水的识别率有意义的提高,有时甚至可 - SAN: 一个强健的端到端自动语音识别模型架构
本研究提出一种新颖的 Siamese Adversarial Network (SAN) 结构,可以显著降低字符误差率(CER),实现了自动语音识别任务上的新突破。该网络能够捕捉到更多的声学特征,同时优化输出分布,适用于含有不清晰音频的数据 - 增强注意力机制的 Citrinet 语音识别模型
本文介绍了一种基于卷积神经网络的语音识别模型 Citrinet,利用多头注意力机制提高了模型的收敛速度并降低了字符错误率。实验结果表明,该模型在日语 CSJ-500h 和 Magic-1600h 数据集上的表现优于现有模型。
- 利用语言模型提高印度语言的语音识别
本文探究了应用语言模型(LM)到印欧语系语言的自动语音识别(ASR)系统输出结果的影响。我们使用来自多种来源的文本对 18 种印欧语系语言的 wav2vec 2.0 模型进行微调,并进行结果调整。我们的研究结果显示,经过 LM 解码后,字符 - 跨模态 ASR 后处理系统,用于纠错和话语拒绝
本文提出了一种跨模态后处理系统,包括融合不同模态的声学特征和文本特征、联合置信度估计器和错误修正器以及统一的错误修正和话语拒绝模块等,证明相较于单模型或单任务模型,该系统更加有效率地减小语音识别中字符错误率 (CER),且每个单词的额外延迟 - SpeechMoE:使用动态路由混合专家扩展大规模声学模型
本文提出一种基于 MoE 的语音识别模型 SpeechMoE,引入稀疏 L1 损失和平均重要性损失来控制路由器激活的稀疏性和提高门值的多样性,并使用了新的路由器架构,可以同时利用共享嵌入网络的信息和不同 MoE 层的分层表示。实验结果表明, - 离线手写中文文本识别与卷积神经网络
本文研究基于深度学习的方法在离线手写中文文本识别领域的应用,使用只有卷积神经网络的模型和 CTC 损失函数实现,采用 Dropout 方法以防止过拟合,最终在 ICDAR 2013 竞赛数据集上实现了 6.81% 的字符错误率,为同等条件下 - CVPROrigamiNet: 通过学习折叠过程实现弱监督、无分割、一步到位、全页文本识别
这篇文献提出了一种名为 OrigamiNet 的神经网络模块,用于将单行文本识别转化为多行 / 全页文本识别,且无需分割图像,可以实现更高的准确率,最终在手写文字识别的基准测试中取得了最佳结果。
- 伪卷积策略梯度用于序列到序列的口语读唇
探讨使用伪卷积策略梯度 (PCPG) 解决序列到序列问题中的 “teacher-forcing” 策略所存在的暴露偏差问题和交叉熵损失与最终评估指标之间不一致的问题。提出了使用伪卷积策略梯度 (PCPG) 的新方法来解决这些问题,该方法能够 - 利用持久性内存模型的 DFSMN-SAN 自动语音识别
本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中,提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果,实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。
- Calamari - 基于 TensorFlow 的高性能深度学习包,用于光学字符识别
使用深度神经网络和机器学习算法,开发了 Calamari OCR 软件,可有效识别印刷文字。对现代英语和德文断头体风格的数据集测试表明,该软件的字符错误率远低于 OCRopy、OCRopus 和 Tesseract 软件。
- 多任务学习下的联合 CTC-Attention 基于端到端语音识别
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基