- 使用无记号语言模型实现端到端的有风格限制的诗歌生成
本文介绍了一种以韵脚、节律和押韵等风格为条件,使用深度学习模型生成诗歌的方法,通过先预训练自然语言处理模型 ByGPT5,再在英语和德语四行诗的自定义语料库上进行微调,实现了较高的生成效果和参数效率,从而提高了生成诗歌的成果和可行性。
- 基于预训练模型的高效语音翻译
论文探究使用预训练模型构建高效的语音翻译模型,提出基于相似损失的方法以增强数据效率及提高翻译质量。
- 使用备选拼写预测模型提高稀有词汇的语境识别
本文介绍了一个使用上下文偏置列表对 ASR 进行计算的公共基准任务,并提出了一种替代拼写预测模型,它相对于不使用替代拼写的上下文偏置提高了罕见单词的召回率和词汇外单词的召回率。
- 挖掘公共数据中的音频文本对以提升低资源语言的 ASR 系统有效性
本文利用 All India Radio 文档中的文本和音频对来创建了一个名为 Shrutilipi 的数据集,该数据集包含来自 12 种印度语言的 6,400 小时的语音,其对应的文本总计 4.95M 句子。将 Shrutilipi 添加 - 面向非洲语言的大词汇量语音识别:多语言建模和自监督学习
应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量,为非洲语言建立大词汇量语音识别系统。
- 双通路低延迟端到端口语理解
本研究利用内部预训练的语言模型构建强大的语义表示,使用 2 段 SLU 系统,结合语义和语音特征进行高质量语音识别,以提高用户体验和降低延迟。
- 语言模型融合 ASR 中无意记忆的检测
通过黑匣子查询语言模型融合的语音识别器,检测语言模型训练数据中个别文本序列的记忆化现象,并通过梯度裁剪的语言模型训练方法降低此类记忆化对隐私的影响,同时不影响模型整体质量。
- SIGIRHAKG: 面向推荐的层次感知知识门控网络
本文提出了一种新模型,叫做 Hierarchy-Aware Knowledge Gated Network(HAKG),主要应对 KG 领域中现存的一些问题,在实验中,与现有的方法相比表现了很大的优势。
- 多语言同声传译
研究了一种在会议或会谈中进行同时语音翻译的应用程序,并探讨了使用在线口语翻译模型建立在线口语翻译系统的一般方法以及针对这种方法采用不同的语言和体系结构的多语种模型与端对端模型的能力。所提出的方法通过对 TEDx 语料库的实验证明,相似的潜在 - 一种基于似然比的 E2E 模型领域自适应方法
本研究提出了一种基于上下文偏差和似然比的方法,用于改善自然语言下的自动语音识别的效果。该方法以 1-Best 错误率为主要指标,在多个跨领域数据集上相对提高了 10%的识别正确率,同时也优化了 8-Best Oracle WER。
- MM有效增强机制改进终端到终端模型的发音错误检测
本研究提出两种模型策略以加强 E2E MD 模型的区分能力 —— 输入增强和标签增强,经实验证明较传统的 DNN-HMM 声学模型效果更佳,可以用于 L2 学习者语音纠错。
- 低资源方言阿拉伯语 - 英语代码切换语音语音识别系统研究
本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率,结果表明两种模型相互补充且识别性能都不错。
- 动量伪标记在半监督语音识别中的应用
本研究提出一种名为动量伪标签的半监督语音识别方法,采用了一种在线模型与离线模型之间交互学习的策略,取得了比基准模型更好的效果。
- ICML带有对抗学习的条件变分自编码器用于端到端的文本转语音
本篇论文提出了一种使用正则化流和对抗式训练改进的变分推断的并行端到端的语音合成方法,还引入了基于随机预测的语音节奏模型来解决单一文本多样合成的问题。主题涉及文本转语音、端到端模型、变分推断、随机预测、生成模型。相关实验显示本方法表现优于其他 - ACL语音到文本转换的共享语义空间学习
该论文提出了一种名为 Chimera 的方法,该方法通过投影音频和文本特征到一个共同的语义表示来统一文本翻译和语音翻译任务,从而提高了 MuST-C 和 Augmented Librispeech 的 ST 基准性能至新的最先进水平。
- 端到端同时语音翻译解码策略的实证研究
本文提出了一种针对端到端同时语音翻译的解码策略,利用线下训练的端到端模型,并对两种语言对进行了实证研究,探讨了不同的输出令牌粒度以及在不同延迟情况下控制 BLEU/Average Lagging 平衡的方法,效果良好。
- ACL联合语音识别和翻译的流式模型
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
- 一种更好和更快的流式 ASR 端到端模型
本文研究了使用不同算法,如 FastEmit,Conformer 层和 Cascaded Encoders 等,提高端到端模型在流式语音识别领域的质量和延迟平衡。
- CompressAI:面向端到端压缩研究的 PyTorch 库和评估平台
介绍了 CompressAI,一个图像和视频端到端压缩编解码器研究、开发和评估平台,提供自定义操作、层、模型和工具,包括预训练模型和评估工具,并与传统编解码器进行比较,使用 Kodak 图像数据集作为测试集,采用 PSNR 和 MS-SSI - 自监督语音和语言模型预训练的半监督口语理解
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图