提出了一种半监督历史重建任务,其中模型只在少量有标记数据(原型形式的同源词集)和大量无标记数据(无原型形式的同源词集)上进行训练,并且通过提出的神经架构(DPD-BiReconstructor)能够利用无标记同源词集,在这一新任务上超越强大的半监督基准模型。
Jun, 2024
使用 RNN-based encoder-decoder with attention model 和 Transformer 模型进行原型重建,分析了语言谱系启示信号。
Jul, 2023
本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构,提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测,结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异,但该模型仍学习了有意义的语音规律。
Aug, 2019
通过运用反射预测模型对重构模型中的候选原型进行重新排序,我们的研究在三个中国和罗曼语数据集中超越了最先进的原型重建方法。
Mar, 2024
通过数据增强、使用变分自动编码器 (VAE) 结构的 Transformer 模型和神经机器翻译模型,通过改进之前的方法来提高原型形态重建的性能。
Apr, 2024
我们将蛋白质语言模型 MSA Transformer(多序列比对变换器)应用于自动语音演变重建问题,命名为同源变换器,并在同源反射预测任务中得出优于现有模型的结果,特别是在掩码词预测任务的预训练下。
Oct, 2023
本文提出了使用基于神经网络的无监督学习方法来处理语料库中的词汇歧义问题,该方法在不考虑上下文的情况下,使用概率模型来推断单词形态上下文的各种分析,最终通过评估指标在五种语言上取得了一定效果。
Jun, 2018
为了解决资源匮乏语言中的迁移学习问题,本研究提出了一种基于形态学知识的跨语言弱监督深度同源词检测框架,通过训练编码器获得语言的形态学知识,并将此知识转移至密切相关的语言以进行无监督和弱监督的同源词检测。在不同的语系上进行了实验,得到了显著的改进和超越最先进的监督和无监督方法的结果。该模型对于任何语系的各种语言都具有扩展性,因为它克服了对同源词对进行训练注释的要求。
Nov, 2023
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
本文介绍了一种新的计算机模型,该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术,可用于监督祖先语言的单词形态学恢复,测试结果表明该方法既快速又易于实现和扩展。
Apr, 2022