- Wav2Gloss: 从语音生成词汇顺序排列的文本
语言灭绝、线性标注文本、Wav2Gloss、语音标注和端到端系统的比较和分析以及为未来 IGT 从语音生成的研究奠定基础的基准测试。
- BlendSQL:统一混合问题回答的可伸缩方言
BlendSQL 是一个 SQLite 的超集,通过单个解释性的 BlendSQL 查询将完整的分解推理路线编码为一个统一的方言,可用于解决涉及多跳推理的混合问答任务,并且能够在使用更少词汇的情况下扩展到大型数据集并提高端到端系统的性能。
- ACL长文同时语言翻译:论文提案
同时语音翻译 (SST) 的目标是提供实时的口语翻译,即使在发言者完成句子之前。传统上,SST 主要通过级联系统来解决,将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而, - 引入噪声稳健性到预训练自动语音识别
提出了一种新的方法,即 Cleancoder 预处理架构,从 Conformer ASR 模型中提取隐藏激活,并将其馈送给解码器来预测去噪谱图。通过在嘈杂的输入中重建去噪谱图,我们证明 Cleancoder 可以滤除语音中的噪声,从而改善了 - 低延迟同时语音翻译的端到端评估
低延迟语音翻译的评估框架:该研究提出了第一个在真实场景下执行和评估低延迟语音翻译各个方面的框架,通过对音频分割和不同组件运行时间的评估,比较可修订输出模型和固定输出方法,对比级联和端到端系统,并自动评估翻译质量和延迟,并提供网页接口展示低延 - 使用非尖峰 CTC 提高端到端自动语音识别中单词时间的帧级分类器
本文提出了一种在 E2E 系统中改进字时分类器的方法,该方法采用了传统的 CTC 损失连接与低级别 Mel-scale 滤波器和高级 ASR 编码器输出相结合的输入特征。与混合系统和之前的 E2E 方法相比,在内部中文语料库上,提出的方法在 - Hystoc:端到端 ASR 系统融合中获取单词可信度
本文提出了一个简单的方法 Hystoc,通过将系统 ASR 的 n 最佳输出中的假设转化为混淆网络进行迭代对齐过程,从而获得单词级置信度。同时,研究者还证明了利用 Hystoc 对多个 e2e ASR 系统进行融合会增加融合的收益。
- 选择性数据增强对于强健的语音翻译的影响
该论文介绍了使用端到端系统和噪声机器翻译数据增强策略来改进语音翻译,提高 BLEU 分数,该方法应用于英语 - 印地语语音翻译。
- 走向真实场景的端到端演讲者分离
本文提出了一种吸引子模型的端到端系统,通过训练模拟数据集来适应于野外含有更多发言者的情况,并且使用注意力机制增强网络容量来识别更多的发言者吸引子。虽然这种模型只是基于音频的,但是在 AVA-AVD 基准数据集中取得了明显优于只有音频或音视频 - 基于树约束指针生成器的端到端口语理解
利用上下文偏置技术,结合基于树约束指针生成器(TCPGen)的插入偏置模型和插入概率偏置机制(SPB),提出了一种方法来解决端到端口语理解系统中的长尾词问题,该方法对比基线表现,在 SLURP 数据集上实验表明 TCPGen 和 SPB 对 - EMNLP使用组合端到端模型进行口语理解的标记级序列标注
通过使用 ASR 和 NLU 的组合方式,我们构建了一种组合式的 SLU 模型,其可以将语音模态转换为传统的 token-level 表示,解决了现有 end-to-end 模型中的序列标记问题,并在命名实体识别任务上优于传统的级联和直接的 - 评估端到端生成系统的字幕分割
研究字幕分割在使用不同于参考文本的输出时的评估方法,提出一种基于边界上的 BLEU 得分的字幕分割得分 $Sigma$。通过边界投影方法,将输出错误的假设映射到真实参考上,比较已有指标和 $Sigma$。研究结果表明,所有指标都能奖励高质量 - 使用 Conformer 模型进行口语理解的不同方法研究
本文研究了一种结合 ASR 和 NLU 功能的语音意图理解技术,将单个 Conformer 模型的不同组件以不同的方式进行组合,研究了各种方法的优劣,并提出了一种新的 CTS 方法来提高端到端模型的准确性和处理速度,相对于最佳的两阶段 SL - 将无栅格情境相关 MMi 集成到端到端语音识别中
本研究将另一种判别准则 —— 无格最大互信息(LF-MMI)整合到端到端自动语音识别系统(E2E ASR)的训练和解码过程中,与 MBR 相比,实现了训练和解码之间的一致性,提高了训练效率,表现出 SOTA 绩效。
- 减少语音训练数据需求以构建口语理解系统
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
- 自动儿童语音识别的端到端神经系统:一个实证研究
通过对最先进的端到端语音识别系统的实证研究,本研究对自动儿童语音识别进行了关键性的评估,并提供了关于训练数据需求、适应儿童数据、儿童年龄、语音长度、不同架构和损失函数对端到端系统的影响以及语言模型对语音识别性能的作用的见解。
- ACL基于级联方法的神经网络抽象性摘要与内容选择与融合
本文提出了一种级联结构应用于神经文本摘要的实证研究,其中级联结构可在灵活的内容选择条件下,将重要内容分离并粘合成一个连贯的文本,如此的性能与端到端系统相当甚至更优。
- Gesticulator: 一个语义感知的语音驱动手势生成框架
本文介绍了一种基于深度学习的模型,该模型将语音的声学和语义表示作为输入,生成关节角度旋转序列作为输出,可以产生任意节拍和语义手势。
- 为注意力语音识别系统生成合成音频数据
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低 - 通过联合学习自然语言生成和自然语言理解模型的半监督神经文本生成
本研究提出了一种半监督深度学习算法,能够在缺乏注释数据的情况下,利用非注释数据进行学习,采用序列到序列模型的 NLG 和 NLU 模型进行联合学习来实现。实验结果表明,在有限的注释数据下,该方法可以不使用任何预处理或重新评分技巧就能够取得非