本文介绍了一种语言特征提取的方法,特别关注多种语言中单词的自动音节划分,在文本和音标领域中提取音素转录、重音标记和统一的自动音节划分;通过剔除研究,我们证明了这种方法在多种语言(英语、法语和西班牙语)中自动音节划分单词的有效性;此外,我们将该技术应用于 CMU ARCTIC 数据集的转录中,生成了有价值的注释,可供语音表示学习、语音单元发现和语音相关领域中的语音要素分离使用。
Oct, 2023
本文介绍了一种基于(加权)有限状态转化器的文本分析模型,可用于 TTS 合成,其使用词汇工具包构建转换器,适用于 8 种语言,包括西班牙语、意大利语、罗马尼亚语、法语、德语、俄语、普通话和日语。
Aug, 1996
跨语言计算建模的形态变化研究通常采用与语言无关的数据分割算法。本文采用特定语言的探测器来测试形态变化的一些普遍规律。通过在英语、西班牙语和斯瓦希里语这三种形态学上有明显区别的语言上测试这些探测器,我们发现了三种主要的形态变化系统在屈折类和特征集上都采用了不同的普遍规律策略,无论是在拼写还是在音标输入上。
本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现,并研究了两个因素对分析结果的影响,最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。
Apr, 2020
本文从几个角度综合了各种主张,提出了一种独特的语言学派,将数学几何观点引入到语法中,描述了一种基于几何学的机制,用于解释人类语言里的显著特征,并提出了一种新型的匹配方法,利用代表单词的标记链来形成句子,并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。
Mar, 2023
本研究使用 NLP 技术中的 lemmatization 和 parsing,研究了词语和语法标记对于作者风格识别的效果,并在多种标记类型下进行了分类准确度的对比,结果显示虽然其性能较字词标记差,但不相差的程度不超过 15%。
Jun, 2022
该研究描述了一种分析南美洲语言的拓扑形状的工作流程,通过应用多重对应分析技术和拓扑数据分析方法,解决了语言学中普遍存在的分类值数据库数据可视化困难的问题。
Mar, 2024
本文研究了英语自动语音识别系统中使用不同词典(phonetic、graphemic)的性能差异,考察了不同系统组合方法对性能的影响,最终发现混合使用 phonetic 和 graphemic 系统能获得更好的表现。
Feb, 2018
本研究探讨双语词典学习是否有能力学习罕见的语法变形,并证明通过在训练时添加简单的形态学约束可以提高双语词典学习的性能。
Sep, 2019
我们量化不同语言形态系统的语言复杂度,揭示了屈折范式的大小和不规则程度之间的经验权衡,即一种语言的屈折范式可以是大小大,或高度不规则,但永远不会两者兼备。我们的方法体现了屈折范式的熵 - 即共同预测范式所有表面形式的难度。我们通过变分逼近估计这一问题,并测量这些范例在 31 种类型多样的语言中的表现。
Jul, 2018