适用于顺序保持序列建模的变分连接主义时间分类

Sep, 2023

适用于顺序保持序列建模的变分连接主义时间分类

Variational Connectionist Temporal Classification for Order-Preserving Sequence Modeling

Zheng Nan, Ting Dang, Vidhyasaharan Sethu, Beena Ahmed

TL;DR将序列模型 CTC 与变分模型相结合，导出两个可用于训练保持顺序、更具普适性的序列模型的损失函数，实现直接优化模型对数似然的变分下界。

Abstract

connectionist temporal classification (CTC) is commonly adopted for sequence modeling tasks like speech recognition, where it is necessary to preserve order between the input and target sequences. However, CTC is only applied to deterministic →

connectionist temporal classification variational models sequence models latent variables loss functions

发现论文，激发创造

用于文本识别的自训练正则化连接主义时序分类损失：一种简单而有效的方法

提出了一种自我蒸馏方案来优化基于 CTC 的文本识别模型的损失函数，该方案通过引入 CTC 损失中的帧正则化项来强调个体监督，并利用最大后验概率来解决蒸馏过程中的一致性问题，称之为 Distillation Connectionist Temporal Classification (DCTC) 损失。在公共基准测试中的大量实验证明，DCTC 可以在没有任何副作用的情况下将文本识别模型的准确性提高 2.6%。

Aug, 2023

Bayes 风险 CTC：序列到序列任务中可控制的 CTC 对齐

本文提出 Bayes risk CTC 模型来控制序列预测的对齐，并针对不同需求定制损失函数，实现预测路径优选。实验表明 BRCTC 模型能有效减少离线模型的推断成本并显著降低在线系统的整体延迟。

Oct, 2022

探究基于 CTC 的非自回归端到端语音翻译的重新排序能力

使用连接主义时间分类（CTC）构建非自回归语音到文本翻译模型，并将基于 CTC 的自动语音识别作为辅助任务来提高性能。通过对 CTC 的重新排序能力进行分析，使用肯德尔 - 塔距离作为定量指标并提供梯度可视化，进一步探索了非自回归语音翻译的研究方向。

May, 2021

语音翻译的预训练：CTC 应用最优输运

本文提出了一种通过前置训练解决语音到文本模式间隔问题的方法，其中使用连接主义时间分类损失和最优传输相结合的前置训练，该方法在标准的 CoVoST-2 和 MuST-C 数据集上实现了最新的性能，并与最近的强多任务学习系统表现相当。

Jan, 2023

CTC 对齐提高自回归翻译

这篇论文探讨了 Connectionist Temporal Classification 在翻译任务中的应用，并提出了 CTC/attention 的联合模型，改进了传统 attention 模型的训练表现和效果。

Oct, 2022

与目标对齐：利用通用即插即用框架优化 CTC 模型所需属性

提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中，通过 CTC 和附加的损失项优化各种功能，例如发射时间和单词错误率，以实现对齐的改善和性能提升。

Jul, 2023

在序列到序列模型中执行编码器 - 解码器模块化

提出了一种在 seq2seq 模型中执行编码器 - 解码器模块化的方法，通过使用 CTC 损失将编码器输出单元离散化为预定义的可解释词汇空间，使模型具有独立、可替换的编码器和解码器模块，达到接近 SOTA 的性能水平 (300h Switchboard 基准测试数据集下，SWB 和 CH 子集的 WER 分别为 8.3% 和 17.6％)。

Nov, 2019

基于 CTC 和分段 CRF 的语音识别多任务学习

本研究中，我们使用相同的递归神经网络编码器对 SCRF 和 CTC 方法进行多任务学习，优化它们的插值损失值，发现这样的学习目标可以显著提高识别准确度，并且还表明 CTC 方法可以用于预训练 RNN 编码器，这有助于提高学习联合模型的收敛速度。

Feb, 2017

自注意力网络在语音识别中的连接主义时间分类

本文提出了 SAN-CTC，是一种基于自注意力机制和 CTC 的深度神经网络，用于实现端到端的语音识别，经过评估，相比于现有的 CTC 模型和编码器 - 解码器模型，具有更好的性能。

Jan, 2019

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022