- CompressAI:面向端到端压缩研究的 PyTorch 库和评估平台
介绍了 CompressAI,一个图像和视频端到端压缩编解码器研究、开发和评估平台,提供自定义操作、层、模型和工具,包括预训练模型和评估工具,并与传统编解码器进行比较,使用 Kodak 图像数据集作为测试集,采用 PSNR 和 MS-SSI - 自监督语音和语言模型预训练的半监督口语理解
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图 - 基于注意力机制的序列到序列模型语音识别置信度估计
本文探讨如何使用语音识别器的置信度得分来评估转录质量,提出了一种名为信心估计模块(CEM)的轻量化且有效的方法来解决端到端模型的过度置信问题,并发现 CEM 能潜在地改善半监督学习等下游任务。
- ACL跨语言摘要的混合语言预训练
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有 - 无全文本端到端口语理解
本文研究了直接将语音输入转换为语义实体的端到端口语理解系统,探索了这些端到端系统是否可以仅使用语义实体注释进行训练,并且使用注意力机制的编码器 - 解码器模型的效果最佳。
- EMNLP使用参数学习任务导向对话系统的知识库
本文提出了一种将知识库(KB)嵌入到模型参数中的方法,从而实现无需在交互中使用 DST 或模板响应以及 KB 作为输入的端到端对话系统;实验证明,基于该方法的端到端模型在各种 KB 大小下能够实现优异的性能。
- 基于 Transformer 的并行重估分数模型用于流式端上语音识别
本研究使用 Transformer 层替换 LSTM 层以减少二次模型的计算延迟,并提高 end-to-end 模型的质量。
- ACL语音的一致转录和翻译
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确 - ICLR基于选项框架的任务型对话系统中对话策略和自然语言生成器之间的分层结构建模
本文提出了一种利用层次强化学习方法及潜在会话行为来设计任务导向的对话系统,可有效解决以前使用监督学习和强化学习训练的模型在用户请求满足和生成系统话语的可理解性之间难以平衡的问题,并在测试中与其他模型相比获得了更好的性能表现。
- 大规模语音识别常用端到端模型比较
本研究比较了非流式和流式模式下三种端到端自动语音识别模型,包括循环神经网络转导器(RNN-T)、循环神经网络基于注意力的编码器 - 解码器(RNN-AED)和 Transformer-AED。研究表明,Transformer-AED 在流式 - ACL手机功能提升语言翻译
本研究比较了级联和端到端模型在不同资源条件下的性能,并在 ST 模型中引入电话特征以提高它们的表现,从而缩小了端到端模型与级联模型之间的差距。
- ACL让我来选择:从语境到字体选择
本文旨在学习字体的视觉属性和它们所应用的文本的语境之间的关联,并引入一个包含社交媒体帖子和广告中不同主题示例的新数据集,通过众包标注,通过研究不同的端到端模型来学习众包数据上的标签分布并捕捉所有注释之间的主观性。
- ACL语音翻译与端到端的承诺:回顾我们的现状
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
- 一种超越服务器传统模型质量和延迟的流式设备端到端模型
本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型,不仅在精度上,而且在延迟方面超越了传统模型,并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡,例如,在相同的延迟下,RNN-T+LA - CoVoST: 一个多样化的多语种语音到文本翻译语料库
本文介绍了 CoVoST—— 一个多语言的语音 - 文本翻译语料库,并提供了详细的数据集创建方法、数据质量实证和多语言翻译模型的前期实验成果。
- 说话人感知语音转换器
本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练,提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型,在静态的说话人知识块基础上生成加权的说话人嵌 - MM利用孪生网络和对比损失进行语音情绪识别
本文介绍一种利用对比损失函数来鼓励可学习特征的类内紧凑性和类间可分性的方法用于语音情感识别,结果表明该方法在 IEMOCAP 数据库上表现出比基准系统更好的性能。
- 利用语音合成训练端到端口语理解模型
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。
- 单尺度高条件数流用于非平行原始音频的语音转换
该研究提出了一种使用超网络条件的单尺度归一化流模型(Blow),用于以单个讲话者身份识别器为基础的一对多语音转换,可以在处理非平行数据时达到良好的目标和主观性能,为原始音频生成提供了一种新的解决方案。
- 神经度量学习用于快速端到端关系抽取
本文提出了一种新颖的神经架构,利用表格结构和二维卷积技术进行本地依赖特征池化,从而改善了以往的最佳性能,在不需要全局优化的前提下实现了端对端关系提取任务(包括命名实体识别和关系抽取),相较于之前最好的结果提高了约 1%的 F1 分数,并且训