- 为改善口语理解,朝着对话历史全面集成的方向发展
本研究提出了一种基于层次对话模型的端到端口语理解框架,可在不依赖于级联自动语音识别器的情况下直接使用语音形式的对话历史,构建语音和语义嵌入的文本模型,针对训练时间提出一种名为 DropFrame 的新技术。在 HarperValleyBan - 训练和调整 RNN 转录自动语音识别模型的文本输入整合
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
- 使用自监督特征进行语音情感识别
本文介绍了一种基于自上而下加自下而上架构范式的端到端情感识别系统,构建了基于自我监督特征的情感识别实验,并研究了自我监督特征模型的微调、特征的聚合和后端分类网络之间的相互作用等领域。该单模只有语音的系统不仅取得了 SOTA 结果,而且也揭示 - EMNLP端到端神经信息状态分类
本文提出了基于神经网络的端到端方法,用于信息状态分类和桥式照应识别,并在 ISNotes 数据集上实现了语义级别下的最新成果。同时,该系统也在桥接照应识别方面表现出了竞争力。
- AGGGEN: 生成过程中的排序和聚合
本研究提出了 AGGGEN,一种数据到文本模型,重新引入了两个明确的句子规划阶段到神经数据到文本系统中:输入排序和输入聚合。我们的模型仍然是端到端的: AGGGEN 通过学习输入表示和目标文本之间的潜在对准(通过语义事实)在生成文本的同时执 - 使用预训练模型和适配器进行端到端的语音翻译:UPC 在 IWSLT 2021
本文介绍了 UPC 机器翻译小组提交给 IWSLT2021 离线语音翻译任务的参赛作品,是一个基于端到端的离线语音翻译系统,采用预训练模型 Wav2Vec 2.0 和 mBART 的联合技术,在仅训练 20% 的参数的前提下获得了 27.3 - AAAI探索迁移学习用于端到端语音理解
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端 - ICML端到端目标检测的重要因素是什么?
本篇论文提出了一个新的目标检测算法,通过引入新的匹配成本 - 分类成本,解决了之前检测器中的一对多问题,并引入了得分差来探讨匹配成本的影响,最终证明了端到端的目标检测在拥挤场景下的优势。
- 改进的 Mask-CTC 用于非自回归端到端 ASR
为了实现自动语音识别的实时应用,并降低计算资源需求,本文结合 Conformer 结构和辅助目标预测方法,提高了基于 Mask-CTC 的端到端自动语音识别系统识别准确性 17.5% 以上,同时使推理速度不下降,结果超越标准 CTC 模型。
- 利用单张图像与情感条件生成语音驱动的说话人脸
本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达,设计了一个端到端的语音驱动面部生成系统,可以在输入语音、单张面部图像和情感标签时呈现表情,在图像质量、音视频同步和视觉情感表达等方面表现出色,主观和客观的评估都证明了该系统的 - SIGIR跨语言 IR 的神经匹配模型研究
通过研究交互式神经匹配模型,结合多语言词向量,为跨语言信息检索建立端到端系统提供了途径。
- AdaDurIAN:利用 DurIAN 进行神经文本转语音的少样本适应
本文介绍了一种基于改进后的 DurIAN 模型的 AdaDurIAN 方法,可在很少的单语言数据的情况下,使新的说话人发音准确、流利地进行跨语言交流,并在情感转换任务中表现出良好的性能。
- COLING端到端神经数据文本生成:从数据到文本生成语义忠实性
DataTuner 是一个神经网络端到端生成数据文本的系统,结合 fine-tuned 语言模型和语义保真分类器,仅需最少的数据特定启发式、实体去词法和后处理即可实现所有端到端学习,可以在多种数据集上取得最先进的结果并获得比传统启发式度量更 - AAAIEHSOD:基于 CAM 的端到端混合监督物体检测及级联细化
本论文旨在通过开发 EHSOD 来训练高质量的检测器,其结合全注释和图像级别标签的有限数据,利用 CAMRPN 模块,和混合监督级联模块的帮助来改进与较弱的标注数据相关的定位和分类问题。
- 深度上下文化声学表示用于半监督语音识别
我们提出了一种新的半监督自动语音识别方法,利用表示学习从无标注音频数据中重建滤波器组特征,并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统,实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。
- 利用 GAN 实现逼真的语音驱动面部动画
本文介绍了一种基于语音信号自动生成会说话的角色的方法,该方法使用了端到端的系统并使用 Generative Adversarial Network (生成对抗网络) 来确保视频与音频的实时同步,并且产生了自然的面部表情。
- EMNLPSentencePiece: 一种简单且独立于语言的子词标记器和去标记器,用于神经文本处理
本文介绍了 SentencePiece,一种语言无关的子单词标记器和去标记器,旨在用于神经文本处理,包括神经机器翻译。它提供了 C++ 和 Python 的开源实现来得到子单词,并能够直接从原始语句中生成子单词模型,从而实现纯粹的端到端系统 - 基于条件 GAN 的通道无关端到端学习通信系统
本文提出了使用深度神经网络的端到端通信系统,并使用条件生成对抗网络表示了通道效应,从而构建了一种不需要先前信息的通道不可知的端到端系统。
- 从原始波形进行端到端的语音识别
本研究研究使用卷积架构的可训练替代 Mel 滤波器,对两种 end-to-end 系统进行修改并与 Mel 滤波器进行比较,结果表明可训练的过滤器相对于 Mel 滤波器在单词错误率方面表现更好。
- ACL通过联合提及检测和提及聚类的深度双仿射注意力神经指代消解
本文介绍了一种使用双仿射注意模型和联合最优化方法来改善端到端语义消解系统的方法,该方法在 CoNLL-2012 共享任务的英文测试集上实现了最先进的性能。