- 口语阅读流利度评估的深度学习
评估阅读流畅性的自动化工具在教育干预中起着重要作用,本研究采用 pre-trained wav2vec2.0 模型对儿童故事文本的音频录音进行端到端建模,并对阅读流畅性知觉相关的词汇和声学 - 韵律特征进行了分析。
- TE-TAD:基于时间对齐的坐标表达的全端到端时域行动检测
我们提出了一种全面的端到端时序动作检测变换器,它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程,而且显著改善了查询型检测器的性能。
- 融合模型的弱对齐监督改善端到端 ASR
本文旨在创建弱对齐监督以辅助端到端建模,在已有的混合 ASR 系统中产生训练音频的三音素对齐。我们在编码器的某一层上使用这些对齐创建交叉熵损失。与一般的一位有效交叉熵损失或带有损失加权的方法不同,我们在此使用带有标签平滑参数的交叉熵损失来规 - 面向端到端的开放对话式机器阅读
本文介绍了一种基于完全端到端的方式将开放检索对话式机器阅读(OR-CMR)建模为一个统一的文本到文本任务,并在 OR-ShARC 数据集上展示了其在两个子任务上的显著有效性和创新的最先进结果。
- 社交对话中面向实体的上下文跟踪的统一方法
本文提出了一种实时更新的实体仓库,用于表示对话上下文中已经提到的实体及其关系,并采用端到端建模方法解决了包括标签标注、指代消解、实体链接等多个子任务,同时提供了一个大规模对话语料 Contrack ,以及一种基于神经网络的上下文跟踪方法,并 - 语音转文本非自回归建模的比较研究
本文对不同的无自回归(NAR)建模方法进行了比较性研究,实验证明了 NAR 模型相较自回归基线的精度降低代价下,可以同时在序列中生成多个输出,具有在实时应用中优足的潜力,在自动语音识别领域的性能差距上得到了一些有趣的发现,并展示了结合这些技 - BiToD: 用于任务导向对话模型的双语多领域数据集
BiToD 是第一个用于多语言任务导向对话建模的双语多域数据集,并为评估双语 ToD 系统和跨语言转移学习方法提供了有效的基准。
- AAAIUBAR:基于 GPT-2 的全端到端任务导向对话系统
该研究介绍了一种基于任务的对话系统 UBAR,使用 GPT-2 对话会话级别的序列进行微调,实现了任务导向对话的完全端对端建模,能在多种设置下取得领先的性能。
- 一种有效的端到端建模方法用于发音错误检测
本研究采用 E2E 模型中的混合 CTC-Attention 方法,并针对中文发音检测任务进行了输入扩充,使结果更加适合该任务。实验结果表明,与传统的混合 DNN-HMM 系统相比,该方法能够大大简化处理流程并显著提高性能。
- 多语言神经机器翻译综述
本文旨在介绍多语言神经网络机器翻译(MNMT)的概述,重点关注其经验转移的传输学习方法,对相关研究领域、建模原理和挑战进行了细致分类,讨论了不同技术的优劣,并探讨了未来的研究方向。
- 基于类语言模型和令牌传递解码器的端到端语境语音识别
本文针对上下文语音识别难以适应 E2E 自动语音识别的问题,提出了使用基于类别的语言模型及高效微调令牌传递解码器来提高性能。实验表明,该方法在不改变解码超参数的情况下,有效降低了上下文语音识别的字词错误率,并不影响普通语音识别的表现。