普通话中的词汇特定调音实现
声调是上海方言(一种吴语变体,主要在上海市区使用)韵律的一个关键组成部分。因此,对于自然流畅的语音而言,声调变化(特别是左边优势变调)是至关重要的。本研究表明,在文本预处理期间进行单词分割可以提高语音合成模型中声调变调的质量。将同一单词内的音节用特殊符号进行标注,这被视为左边优势变调的领域的韵律信息的替代标记。与常规做法将韵律标注主要用于静态停顿不同,本论文证明了韵律标注也可应用于动态音调现象。我期待这个项目作为将上海方言的形式语言学描述带入计算项目的起点。我们长期以来一直在使用普通话模型来近似表达上海方言,但上海方言是具有自己语言特色的不同语言,其数字化和复兴应该被视为独立的语言。
Jul, 2023
本文提出了使用基于 BERT 的陈述 / 疑问分类器来弥补普通神经文本到语音系统无法合成升调的缺点,对不同训练策略进行比较并在 CanTTS 语料库上进行实验,结果表明分别训练方法在泛化性能和可行性上表现最佳。
Aug, 2022
自监督语言模型在编码语音的各个层面上揭示了许多特征,本文通过分析普通话和越南语来研究语言模型对音调的编码能力,发现即使在使用非语调语言的数据进行训练时,语言模型仍然在很大程度上编码了词汇音调。同时,发现语言模型在音调和辅音感知研究中表现出与母语和非母语人类参与者相似的行为,但并没有遵循相同的发展轨迹。
Mar, 2024
我们通过数据驱动的计算建模对元音和谐进行了跨语言研究,使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性,训练使用具有较少或无屈折的跨语言可比较的原型形式,结果表明,神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外,我们的工作还表明词列表是一种有价值的资源,可以用于语言类型学研究,并为未来关于低资源、少研究的语言提供了新的可能性。
Aug, 2023
语调在某种程度上与言语本身及其前后的上下文的信息重复,但仍然包含超越语言的信息。使用大型语言模型,本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较,发现多个韵律特征(包括强度、持续时间、停顿和音调曲线)与言语的信息具有高度的冗余性。然而,仅通过文本无法完全预测语调特征,进一步暗示了语调包含超越言语的信息。
Nov, 2023
使用五个嵌入模型和他们的相似性结构,我们研究了表达钢琴演奏特点的领域中的语义嵌入的不确定性,并评估了上下文提示、减少中心性、跨模态相似度和 k-means 聚类的效果。结果显示,针对这一任务的嵌入模型质量存在很大的变异性;更一般的模型表现优于领域适应模型,并且最佳模型配置达到与人类级别的一致性。
Dec, 2023
本文提出了一种基于 BERT 和自注意力结构实现的基于跨度的汉语韵律结构预测模型,通过对所提供的语言学特征进行编码得到最优韵律结构树,再利用自下而上的 CKY 算法找到得分最高的韵律树,从而完成汉字转韵律标签的端到端预测,实验结果显示:该方法比所有基于序列到序列的基线方法都要优异。
Mar, 2022
通过声音的产生水平,我们以声韵学为基础,定义了一个由声门化、紧张度和共振三个维度构成的框架(GTR),来研究表达性语音合成,记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集(GTR-Voice),并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性,并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力,同时也开源了数据集和 TTS 模型。
Jun, 2024
利用多级语境信息,通过多任务学习解码器,本研究提出了一种改进语音生成自然性的方法,通过使用跨发话语之间的语言信息来预测韵律边界,从而在两个数据集上实现了更好的预测效果。
Aug, 2023