神经网络无监督重建原语词形

Nov, 2022

Neural Unsupervised Reconstruction of Protolanguage Word Forms

Andre He, Nicholas Tomlin, Dan Klein

TL;DR本文介绍一种最先进的神经网络方法，用于无监督重建古代词形。通过使用具有单调对齐约束的神经模型，本方法可以捕捉更复杂的语音和形态变化，实现从五种罗曼语言中的藏语重构拉丁文词汇，并显著提高了与以前方法相比的编辑距离减少率。

Abstract

We present a state-of-the-art neural approach to the unsupervised reconstruction of ancient word forms. Previous work in this domain used

neural approach unsupervised ancient word forms phonological changes latin

发现论文，激发创造

半监督神经原语重构

提出了一种半监督历史重建任务，其中模型只在少量有标记数据（原型形式的同源词集）和大量无标记数据（无原型形式的同源词集）上进行训练，并且通过提出的神经架构（DPD-BiReconstructor）能够利用无标记同源词集，在这一新任务上超越强大的半监督基准模型。

Jun, 2024

变形原型重构

使用 RNN-based encoder-decoder with attention model 和 Transformer 模型进行原型重建，分析了语言谱系启示信号。

Jul, 2023

从古至今：神经原语言重建

本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构，提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测，结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异，但该模型仍学习了有意义的语音规律。

Aug, 2019

通过反射预测改进的神经原型重建

通过运用反射预测模型对重构模型中的候选原型进行重新排序，我们的研究在三个中国和罗曼语数据集中超越了最先进的原型重建方法。

Mar, 2024

神经原型语言重建

通过数据增强、使用变分自动编码器 (VAE) 结构的 Transformer 模型和神经机器翻译模型，通过改进之前的方法来提高原型形态重建的性能。

Apr, 2024

自动音韵重构和同源语反射预测的认知变换器

我们将蛋白质语言模型 MSA Transformer（多序列比对变换器）应用于自动语音演变重建问题，命名为同源变换器，并在同源反射预测任务中得出优于现有模型的结果，特别是在掩码词预测任务的预训练下。

Oct, 2023

词形变化词典中的未监督歧义消解

本文提出了使用基于神经网络的无监督学习方法来处理语料库中的词汇歧义问题，该方法在不考虑上下文的情况下，使用概率模型来推断单词形态上下文的各种分析，最终通过评估指标在五种语言上取得了一定效果。

Jun, 2018

利用密切相关语言的形态学知识进行弱监督的低资源语言深度同源检测框架

为了解决资源匮乏语言中的迁移学习问题，本研究提出了一种基于形态学知识的跨语言弱监督深度同源词检测框架，通过训练编码器获得语言的形态学知识，并将此知识转移至密切相关的语言以进行无监督和弱监督的同源词检测。在不同的语系上进行了实验，得到了显著的改进和超越最先进的监督和无监督方法的结果。该模型对于任何语系的各种语言都具有扩展性，因为它克服了对同源词对进行训练注释的要求。

Nov, 2023

面向开放词汇神经机器翻译的隐变形模型

本文提出了一种通过分层潜在变量模拟词态变化过程的方法，通过组合两个潜在表示（一个连续的表示和一组（近似）离散特征），逐个字符生成单词，从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。

Oct, 2019

使用削减对齐和音位对应模式进行快速自动音系重建的新框架

本文介绍了一种新的计算机模型，该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术，可用于监督祖先语言的单词形态学恢复，测试结果表明该方法既快速又易于实现和扩展。

Apr, 2022