普通话中的词汇特定调音实现

May, 2024

Word-specific tonal realizations in Mandarin

Yu-Ying Chuang, Melanie J. Bell, Yu-Hsiang Tseng, R. Harald Baayen

TL;DR这项研究揭示了普通话双字词的声调轮廓通常由组成的单字词的基本音调，在语音速率、与相邻音调的共同发音、音段结构和可预测性等因素对其施加的发音约束的作用下形成，并且显示出声调实现也部分取决于词汇的意义。

Abstract

The pitch contours of mandarin two-character words are generally understood as being shaped by the underlying tones of the constituent single-character words, in interaction with articulatory constraints imposed

mandarin pitch contours tonal realization word meanings context

发现论文，激发创造

改进上海话的文本到语音合成：通过词分割解决音调连读问题

声调是上海方言（一种吴语变体，主要在上海市区使用）韵律的一个关键组成部分。因此，对于自然流畅的语音而言，声调变化（特别是左边优势变调）是至关重要的。本研究表明，在文本预处理期间进行单词分割可以提高语音合成模型中声调变调的质量。将同一单词内的音节用特殊符号进行标注，这被视为左边优势变调的领域的韵律信息的替代标记。与常规做法将韵律标注主要用于静态停顿不同，本论文证明了韵律标注也可应用于动态音调现象。我期待这个项目作为将上海方言的形式语言学描述带入计算项目的起点。我们长期以来一直在使用普通话模型来近似表达上海方言，但上海方言是具有自己语言特色的不同语言，其数字化和复兴应该被视为独立的语言。

Jul, 2023

粤语神经语音合成中升调建模研究

本文提出了使用基于 BERT 的陈述 / 疑问分类器来弥补普通神经文本到语音系统无法合成升调的缺点，对不同训练策略进行比较并在 CanTTS 语料库上进行实验，结果表明分别训练方法在泛化性能和可行性上表现最佳。

Aug, 2022

自我监督的口语语言模型中的声调编码

自监督语言模型在编码语音的各个层面上揭示了许多特征，本文通过分析普通话和越南语来研究语言模型对音调的编码能力，发现即使在使用非语调语言的数据进行训练时，语言模型仍然在很大程度上编码了词汇音调。同时，发现语言模型在音调和辅音感知研究中表现出与母语和非母语人类参与者相似的行为，但并没有遵循相同的发展轨迹。

Mar, 2024

元音和谐的信息论特征：关于词汇列表的跨语言研究

我们通过数据驱动的计算建模对元音和谐进行了跨语言研究，使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性，训练使用具有较少或无屈折的跨语言可比较的原型形式，结果表明，神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外，我们的工作还表明词列表是一种有价值的资源，可以用于语言类型学研究，并为未来关于低资源、少研究的语言提供了新的可能性。

Aug, 2023

量化韵律与文字之间的冗余性

语调在某种程度上与言语本身及其前后的上下文的信息重复，但仍然包含超越语言的信息。使用大型语言模型，本研究通过英文有声读物中提取的韵律特征与 LLMs 嵌入之间的预测性比较，发现多个韵律特征（包括强度、持续时间、停顿和音调曲线）与言语的信息具有高度的冗余性。然而，仅通过文本无法完全预测语调特征，进一步暗示了语调包含超越言语的信息。

Nov, 2023

描述的是否是同一声音？一项对表现钢琴演奏的词嵌入空间的分析

使用五个嵌入模型和他们的相似性结构，我们研究了表达钢琴演奏特点的领域中的语义嵌入的不确定性，并评估了上下文提示、减少中心性、跨模态相似度和 k-means 聚类的效果。结果显示，针对这一任务的嵌入模型质量存在很大的变异性；更一般的模型表现优于领域适应模型，并且最佳模型配置达到与人类级别的一致性。

Dec, 2023

使用自适应计算机培训软件对英语母语者学习汉语普通话音调的感知培训研究

该研究探讨了一种新的语音调训练技术，可能对二语学习和调训产生积极影响。

Sep, 2023

一个基于字级别跨度的汉语韵律结构预测模型

本文提出了一种基于 BERT 和自注意力结构实现的基于跨度的汉语韵律结构预测模型，通过对所提供的语言学特征进行编码得到最优韵律结构树，再利用自下而上的 CKY 算法找到得分最高的韵律树，从而完成汉字转韵律标签的端到端预测，实验结果显示：该方法比所有基于序列到序列的基线方法都要优异。

Mar, 2022

基于发音器官学的可控表情语音合成

通过声音的产生水平，我们以声韵学为基础，定义了一个由声门化、紧张度和共振三个维度构成的框架（GTR），来研究表达性语音合成，记录了一个包含 20 个中文句子以及 125 个不同 GTR 组合的高质量语音数据集（GTR-Voice），并通过自动分类和听力测试验证了该框架和 GTR 注释的精确可控性，并在两个经过微调的表达性 TTS 模型上展示了 GTR 维度上的精确控制能力，同时也开源了数据集和 TTS 模型。

Jun, 2024

多层次上下文信息提升普通话韵律结构预测

利用多级语境信息，通过多任务学习解码器，本研究提出了一种改进语音生成自然性的方法，通过使用跨发话语之间的语言信息来预测韵律边界，从而在两个数据集上实现了更好的预测效果。

Aug, 2023