自动化声音变化预测用于系统演化推测：图卡诺亚人案例研究

Feb, 2024

自动化声音变化预测用于系统演化推测：图卡诺亚人案例研究

Automating Sound Change Prediction for Phylogenetic Inference: A Tukanoan Case Study

Kalvin Chang, Nathaniel R. Robinson, Anna Cai, Ting Chen, Annie Zhang...

TL;DR我们描述了一套新的方法来部分自动化语言系谱推断，给出了包括词族集、特定原型和音变的声音法则的映射，以及声音变化的语言类型学数据库。通过在这些声音变化数据上训练神经网络，我们取代了语言学专家在基于最简方案的语言系谱推断算法中的部分工作，从而加权不同声音之间的发音差距，并预测历史上原型和现代后代之间的中间声音变化步骤。在对图卡诺安语言进行的最佳实验中，该方法生成了一棵 Generalized Quartet Distance 为 0.12 的树，高于其他半自动化基线。我们讨论了我们的神经网络方法和基于最简方案的树预测的潜在优势和劣势。我们还尝试了一种最小概括学习器来自动引导音变法则，发现其效果与专家注释的声音法则相当有效。我们的代码可在此 https URL 上公开获取。

Abstract

We describe a set of new methods to partially automate linguistic phylogenetic inference given (1) cognate sets with their respective protoforms and sound laws, (2) a mapping from phones to their articulatory fea

linguistic phylogenetic inference cognate sets sound laws neural network typological database

发现论文，激发创造

声音在系统发育重构中是否有效？

通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立，我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能，并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。

Feb, 2024

从古至今：神经原语言重建

本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构，提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测，结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异，但该模型仍学习了有意义的语音规律。

Aug, 2019

神经网络无监督重建原语词形

本文介绍一种最先进的神经网络方法，用于无监督重建古代词形。通过使用具有单调对齐约束的神经模型，本方法可以捕捉更复杂的语音和形态变化，实现从五种罗曼语言中的藏语重构拉丁文词汇，并显著提高了与以前方法相比的编辑距离减少率。

Nov, 2022

基于同源 Transformer 的自动同源检测作为有监督的链接预测任务

基于转换器的架构用于自动认知检测任务，在一定程度的监督下，该方法比现有方法表现更好，证明了利用标记信息的效果，并且通过接受多个序列对齐作为输入和具有链接预测头的端到端架构可以节省大量计算时间并同时产生更好的性能。

Feb, 2024

修剪语音对齐改善从多语言词汇列表中推断音对应模式

本研究提出了基于生物进化中所采用的修剪技术的音位对齐修剪工作流程来改进语音拟音同源语识别技术，经实验证明这种方法可以大幅度提升同源识别的一致性，增加高频的音位对应规律和通用的同源单词的比例。

Mar, 2023

具备人类语言监督的可转移生物声学模型

利用无损声学监测方法追踪全球生物多样性和人类活动对物种的影响，在此工作中，我们提出了一种基于对比语音 - 音频预训练的生物声学模型 BioLingual，该模型能够跨类别识别超过一千种动物的叫声并通过自然语言查询检索动物语音记录。

Aug, 2023

使用削减对齐和音位对应模式进行快速自动音系重建的新框架

本文介绍了一种新的计算机模型，该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术，可用于监督祖先语言的单词形态学恢复，测试结果表明该方法既快速又易于实现和扩展。

Apr, 2022

Prak：捷克语自动语音对齐工具

该研究创建了一个用于简化语音学研究中标注语音的自由开源工具，包括音频对齐、语音识别等多项功能，可用于苹果、Linux 等多平台，能够对捷克语语音进行变体选择、捕捉语言逻辑等，并获得了良好的实际效果。

Apr, 2023

历史声音变化建模：通过历时字符嵌入 Letters From the Past

本文针对语言变化的另一方面 —— 声音变化进行了研究，提出了一种可以通过比较不同时期的分布距离来捕捉声音变化的理论，并通过 PPMI 字符嵌入比较并验证了这一理论，在丹麦历史文献中成功找到了若干个相关的语音变化。该方法可以用于探究一些未解决的问题。

May, 2022

半监督神经原语重构

提出了一种半监督历史重建任务，其中模型只在少量有标记数据（原型形式的同源词集）和大量无标记数据（无原型形式的同源词集）上进行训练，并且通过提出的神经架构（DPD-BiReconstructor）能够利用无标记同源词集，在这一新任务上超越强大的半监督基准模型。

Jun, 2024