适用于顺序保持序列建模的变分连接主义时间分类
提出了一种自我蒸馏方案来优化基于 CTC 的文本识别模型的损失函数,该方案通过引入 CTC 损失中的帧正则化项来强调个体监督,并利用最大后验概率来解决蒸馏过程中的一致性问题,称之为 Distillation Connectionist Temporal Classification (DCTC) 损失。在公共基准测试中的大量实验证明,DCTC 可以在没有任何副作用的情况下将文本识别模型的准确性提高 2.6%。
Aug, 2023
本文提出 Bayes risk CTC 模型来控制序列预测的对齐,并针对不同需求定制损失函数,实现预测路径优选。实验表明 BRCTC 模型能有效减少离线模型的推断成本并显著降低在线系统的整体延迟。
Oct, 2022
使用连接主义时间分类(CTC)构建非自回归语音到文本翻译模型,并将基于 CTC 的自动语音识别作为辅助任务来提高性能。通过对 CTC 的重新排序能力进行分析,使用肯德尔 - 塔距离作为定量指标并提供梯度可视化,进一步探索了非自回归语音翻译的研究方向。
May, 2021
本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法,其中使用连接主义时间分类损失和最优传输相结合的前置训练,该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能,并与最近的强多任务学习系统表现相当。
Jan, 2023
这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用,并提出了 CTC/attention 的联合模型,改进了传统 attention 模型的训练表现和效果。
Oct, 2022
提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中,通过 CTC 和附加的损失项优化各种功能,例如发射时间和单词错误率,以实现对齐的改善和性能提升。
Jul, 2023
提出了一种在 seq2seq 模型中执行编码器 - 解码器模块化的方法,通过使用 CTC 损失将编码器输出单元离散化为预定义的可解释词汇空间,使模型具有独立、可替换的编码器和解码器模块,达到接近 SOTA 的性能水平 (300h Switchboard 基准测试数据集下,SWB 和 CH 子集的 WER 分别为 8.3% 和 17.6%)。
Nov, 2019
本研究中,我们使用相同的递归神经网络编码器对 SCRF 和 CTC 方法进行多任务学习,优化它们的插值损失值,发现这样的学习目标可以显著提高识别准确度,并且还表明 CTC 方法可以用于预训练 RNN 编码器,这有助于提高学习联合模型的收敛速度。
Feb, 2017
本文提出了 SAN-CTC,是一种基于自注意力机制和 CTC 的深度神经网络,用于实现端到端的语音识别,经过评估,相比于现有的 CTC 模型和编码器 - 解码器模型,具有更好的性能。
Jan, 2019
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字符错误率降低了 16.1%。
Feb, 2022