- 一个孩子语法语义界面的路径:儿童(三至十一岁)感应产出汉语递归关系从句的研究
通过实验研究了 3 到 11 岁儿童对八个汉语递归关系从句的产出,发现在不可逆内部语义条件下,SSRRCs、OSRRCs 和 SORRCs 的产出比 RIS-IES 条件下的对应从句提前两年;因此提出了一个两阶段的语言习得路径。
- 普通话中的词汇特定调音实现
这项研究揭示了普通话双字词的声调轮廓通常由组成的单字词的基本音调,在语音速率、与相邻音调的共同发音、音段结构和可预测性等因素对其施加的发音约束的作用下形成,并且显示出声调实现也部分取决于词汇的意义。
- 多语种自我依恋技术虚拟指南
我们提出了一个计算框架,利用现有的非语言数据创建一个普通话的对话系统,用于自我附着技术(Self-Attachment Technique,SAT)的交付。我们的框架不需要大规模人工翻译,但在保证安全和可靠性的同时,也能达到可比较的性能。我 - 一种用于普通话语音识别中快速扩充口音领域的元学习方案
通过元学习技术,本研究提出了一种快速扩展普通话语音识别中口音领域的方法,有效地改善了普通话语音识别在口音方面的性能,比其他方法相对提高了约 3%。
- MAVD:首个带深度信息的开放式大规模普通话视听数据集
这项工作旨在建立 MAVD,这是一个新的大规模普通话多模态语料库,包括由 64 名中国本土说话者发出的 12,484 个话语,其中包括深度信息,可用于评估音频视觉语音识别的有效性。
- FunASR:一个基础的端到端语音识别工具包
FunASR 是一种开源的语音识别工具箱,其中最具代表性的 Paraformer 模型是一种非自回归端到端语音识别模型,经过手动注释的中文语音识别数据集的训练,同时还开放了基于 FSMN-VAD 和 CT-Transformer 的语音活动 - MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练
该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据,其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHEL - 基于 RNN Transducer 的中文普通话语音识别的发音感知唯一字符编码
该研究提出了一种新颖的、基于发音的独特字符编码方法,用于构建基于 E2E RNN-T 的汉语语音识别系统,以克服同音字问题和提取建模单元的困难,实验证明了该方法的有效性。
- 具有非自回归神经机器翻译功能的新型中文方言 TTS 前端
本文提出了一种新颖的中文方言 TTS 前端和翻译模块,用于把标准普通话文本转化为方言表达以提高语音合成的可懂性和自然度。这是首个将翻译与 TTS 前端相结合的工作,使用非自回归神经机器翻译模型和多种技巧,且实验结果在粤语上显示出 2.56 - 一个基于字级别跨度的汉语韵律结构预测模型
本文提出了一种基于 BERT 和自注意力结构实现的基于跨度的汉语韵律结构预测模型,通过对所提供的语言学特征进行编码得到最优韵律结构树,再利用自下而上的 CKY 算法找到得分最高的韵律树,从而完成汉字转韵律标签的端到端预测,实验结果显示:该方 - g2pW:一种有条件的加权 Softmax BERT,用于汉语多音字消歧
提出了一种新的 g2pW 方法,使用可学习的 softmax 权重将 BERT 的输出与所需的多音字字符及其 POS 标记进行条件转化,无需使用额外的 POS 标记预训练模型。该方法在公共 CPP 数据集上的表现优于现有方法。
- CLiMP: 一个汉语语言模型评估基准
介绍了汉语语言模型所获得的知识的研究方法。使用汉语语言的最小对称集构建数据集,评估 11 种不同的语言模型。结果显示,汉语 BERT 在平均精度达到 81.8%,而 LSTM 和 5-grams 的性能仅略高于随机水平。
- EMNLP学习中文发音而不使用发音词典
该研究展示了一种程序,通过非平行的中文字符和拼音音节流建立了一个字符与发音的映射,使用无监督学习方法来有效地将文字转化为语音,其字符到音节的准确率达到了 89%,明显超过以前工作的 22%.
- ASRU 2019 年中英混合口语识别挑战赛:公开数据集、赛道、方法与结果
该研究介绍了 ASRU 2019 普通话 - 英语代码转换语音识别挑战赛,旨在提高普通话 - 英语代码转换情况下的 ASR 性能。参与者可以使用 500 小时标准普通话语音数据和 240 小时普通话 - 英语混合语音数据。本文总结了三个跟踪 - LRW-1000:野外唇语识别自然分布大规模基准测试
本文介绍了一个自然分布的大型口型识别基准数据库 LRW-1000,该数据库包含来自 2000 多个个体说话者的 718,098 个样本,其中每个类都对应一个普通话单词的音节,同时评估了一些利用该数据集的典型口型识别方法和结果分析。