- Easter2.0:改进手写文字识别中的卷积模型
本文介绍了使用卷积神经网络进行手写文本识别的 Easter2.0 体系结构,并提出了一种数据增强技术 'Tiling and Corruption',在仅使用公开训练数据时在 IAM 手写数据库上实现了最先进的结果。
- 非自回归句子摘要的字符级长度控制算法
本文提出一种基于 CTC 模型的动态规划算法,用于实现汉字级别的摘要长度控制,在提高 ROUGE 分数的同时保证摘要完整。
- 将连接时序汇总添加到 Conformer 中,以提高其解码效率,用于语音识别
本研究提出了一种新的” 连接时序总结 “(CTS) 方法,它可以减少 Conformer 模型中 attention decoder 所需的 frames 数,提高解码效率,并且它能够在不损失 ASR 准确性的情况下降低解码预算,提高识别准 - 基于预训练语言模型的知识迁移,提升基于 CTC 的语音识别
基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱,本文提出了两种知识转移方法,借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中,相对于不使用外部语言模型的基础模型,我们的方法将字 - 层级条件端到端 ASR:CTC 和多粒度次词单元
本文提出了一种基于连接主义时间分类(CTC)的分层条件模型,通过在中间层应用辅助 CTC 损失,逐渐增加每个目标子单词序列的词汇量,并使每个级别的序列预测明确地以前一个级别的预测为条件,希望通过利用语言结构的层次结构有效地学习单词级表示,在 - ACL探究基于 CTC 的非自回归端到端语音翻译的重新排序能力
使用连接主义时间分类(CTC)构建非自回归语音到文本翻译模型,并将基于 CTC 的自动语音识别作为辅助任务来提高性能。通过对 CTC 的重新排序能力进行分析,使用肯德尔 - 塔距离作为定量指标并提供梯度可视化,进一步探索了非自回归语音翻译的 - 基于条件独立假设的 CTC 语音识别方法的中间预测结果条件化松弛
本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设,通过在中间层中添加辅助的 CTC loss,使预测更准确,减少了相对词错误率超过 20%。
- CTC 基础语音识别中的中间损失正则化
本文提出了一种基于 CTC 目标的自动语音识别(ASR)的简单而高效的辅助损失函数,结合随机深度训练,应用于最近提出的 Conformer 网络,能够在没有语言模型的情况下实现 9.9%的单词错误率和 5.2%的字符错误率。
- ACL基于 CTC 的直接语音翻译压缩
本研究提出了一种基于 CTC 的动态音频信号压缩方法来改善语音翻译质量,显著提高了 BLEU 评估指标并减少了内存占用。
- Align-Refine: 迭代实时对准实现非自回归式语音识别
本研究提出了一种基于迭代重对齐的端到端 Transformer 模型,在语音识别中优化了 CTC(Connectionist Temporal Classification)对齐,允许长度可变的插入和删除操作。该模型在一个迭代过程中具有很强 - 通过跨模态增强提高连续手语识别能力
提出了一种基于连接时序分类 (CTC) 目标函数和交叉模态增强的新型架构,来提高连续手语识别系统的性能,通过实现词频错误率的计算过程实现跨模态数据的增强和伪数据生成,有效地拓宽了数据集,提升了预测准确率。
- 提高非自回归机器翻译的流畅度
本文对非自回归机器翻译模型进行了改进,通过使用额外的特征来提高连接时序分类(CTC)下的模型表达流畅性,并将其与波束搜索解码相结合,仍能保持高速解码能力,具有与自回归模型相媲美的 BLEU 分数。
- 手语 Transformer: 端到端手语识别和翻译
本研究引入了一种新型的基于 Transformer 的架构,通过使用 CTC loss 将连续手语识别和翻译结合在一起,从而实现了端到端的训练。我们的手语翻译器在标准评估数据集 PHOENIX14T 上实现了最先进的手语翻译效果,超越了传统 - 使用卷积神经网络扩展在线语音识别能力
本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统,通过优化核心架构,高效的波束搜索解码器以及提升性能指标的分析,系统吞吐量提高 3 倍,延迟降低同时保持更好的词语误差率。
- 在序列到序列模型中执行编码器 - 解码器模块化
提出了一种在 seq2seq 模型中执行编码器 - 解码器模块化的方法,通过使用 CTC 损失将编码器输出单元离散化为预定义的可解释词汇空间,使模型具有独立、可替换的编码器和解码器模块,达到接近 SOTA 的性能水平 (300h Switc - 自注意力网络在语音识别中的连接主义时间分类
本文提出了 SAN-CTC,是一种基于自注意力机制和 CTC 的深度神经网络,用于实现端到端的语音识别,经过评估,相比于现有的 CTC 模型和编码器 - 解码器模型,具有更好的性能。
- EMNLP使用连接时序分类的端到端非自回归神经机器翻译
提出基于 CTC 的非自回归结构,可用于神经机器翻译,相比其他的非自回归结构,本文所提出的模型可以进行端到端的训练,并在 WMT 英罗马尼亚和英德数据集上实现了可比的翻译质量及较大的速度提升。
- 基于 CTC 的语音识别的分层多任务学习
使用分层多任务学习进行基于 CTC 的语音识别,添加辅助任务可提高识别结果表现,不同的实验变量,低资源下标准多任务学习表现优异,最佳结果为采用分层多任务学习与预训练相结合,可将错误率降低 3.4% 绝对值。
- 端到端多模态语音识别
探讨了如何应用视觉通道,以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性,并比较了两种方法 - 推进声学到单词 CTC 模型
本论文研究了基于 CTC 准则的声音到单词模型的问题,并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案,最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。