本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构,提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测,结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异,但该模型仍学习了有意义的语音规律。
Aug, 2019
提出了一种半监督历史重建任务,其中模型只在少量有标记数据(原型形式的同源词集)和大量无标记数据(无原型形式的同源词集)上进行训练,并且通过提出的神经架构(DPD-BiReconstructor)能够利用无标记同源词集,在这一新任务上超越强大的半监督基准模型。
Jun, 2024
使用 RNN-based encoder-decoder with attention model 和 Transformer 模型进行原型重建,分析了语言谱系启示信号。
Jul, 2023
我们将蛋白质语言模型 MSA Transformer(多序列比对变换器)应用于自动语音演变重建问题,命名为同源变换器,并在同源反射预测任务中得出优于现有模型的结果,特别是在掩码词预测任务的预训练下。
Oct, 2023
本文介绍一种最先进的神经网络方法,用于无监督重建古代词形。通过使用具有单调对齐约束的神经模型,本方法可以捕捉更复杂的语音和形态变化,实现从五种罗曼语言中的藏语重构拉丁文词汇,并显著提高了与以前方法相比的编辑距离减少率。
Nov, 2022
通过数据增强、使用变分自动编码器 (VAE) 结构的 Transformer 模型和神经机器翻译模型,通过改进之前的方法来提高原型形态重建的性能。
Apr, 2024
通过最近提出的自动化传统比较方法某些方面的方法的成功,以及灵感来源于改进的同源词集自动预测方法,我们提出了一个新的框架,允许在语言重建中表示不确定性,并包含从语言数据计算模糊重建的工作流程。
本文介绍了一种新的计算机模型,该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术,可用于监督祖先语言的单词形态学恢复,测试结果表明该方法既快速又易于实现和扩展。
Apr, 2022
本文提出了一种基于扩展对齐和多层向量的方法来预测同源词反应,并利用并行语料库进行模型的训练和评估,实验结果表明使用随机森林模型可以得到较好的预测效果。
May, 2022
本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性,提供了支持语言相似性跨语言转移的实证证据,并利用这一发现,在不依赖类型学资源的情况下,直接从 ESL 文本中恢复母语类型学相似性结构,并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2%的准确度,具有与依赖类型学资源的等效方法相当的竞争力。
Apr, 2014