从古至今：神经原语言重建

ACLAug, 2019

Ab Antiquo: Neural Proto-language Reconstruction

Carlo Meloni, Shauli Ravfogel, Yoav Goldberg

TL;DR本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构，提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测，结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异，但该模型仍学习了有意义的语音规律。

Abstract

Historical linguists have identified regularities in the process of historic sound change. The comparative method utilizes those regularities to reconstruct proto-words based on observed forms in daughter languages. Can this process be efficiently automated? We address the task of

historical linguistics sound change proto-word reconstruction neural sequence models phonological shifts

发现论文，激发创造

通过反射预测改进的神经原型重建

通过运用反射预测模型对重构模型中的候选原型进行重新排序，我们的研究在三个中国和罗曼语数据集中超越了最先进的原型重建方法。

Mar, 2024

半监督神经原语重构

提出了一种半监督历史重建任务，其中模型只在少量有标记数据（原型形式的同源词集）和大量无标记数据（无原型形式的同源词集）上进行训练，并且通过提出的神经架构（DPD-BiReconstructor）能够利用无标记同源词集，在这一新任务上超越强大的半监督基准模型。

Jun, 2024

神经网络无监督重建原语词形

本文介绍一种最先进的神经网络方法，用于无监督重建古代词形。通过使用具有单调对齐约束的神经模型，本方法可以捕捉更复杂的语音和形态变化，实现从五种罗曼语言中的藏语重构拉丁文词汇，并显著提高了与以前方法相比的编辑距离减少率。

Nov, 2022

自动音韵重构和同源语反射预测的认知变换器

我们将蛋白质语言模型 MSA Transformer（多序列比对变换器）应用于自动语音演变重建问题，命名为同源变换器，并在同源反射预测任务中得出优于现有模型的结果，特别是在掩码词预测任务的预训练下。

Oct, 2023

使用削减对齐和音位对应模式进行快速自动音系重建的新框架

本文介绍了一种新的计算机模型，该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术，可用于监督祖先语言的单词形态学恢复，测试结果表明该方法既快速又易于实现和扩展。

Apr, 2022

神经原型语言重建

通过数据增强、使用变分自动编码器 (VAE) 结构的 Transformer 模型和神经机器翻译模型，通过改进之前的方法来提高原型形态重建的性能。

Apr, 2024

变形原型重构

使用 RNN-based encoder-decoder with attention model 和 Transformer 模型进行原型重建，分析了语言谱系启示信号。

Jul, 2023

分析分析方法：口语神经模型中语音学的案例

本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现，并研究了两个因素对分析结果的影响，最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。

Apr, 2020

神经语言习得与自然语言习得相似吗？一项按年代顺序进行的探究研究

本文介绍了探测方法学，通过使用外部分类器和统计分析，可以获得内层神经网络中存储的语言现象的部分表示。我们对多个 transformer 英语模型进行了时间顺序探测研究，并提供了这种探测研究的开源框架。结果表明，语言信息在训练的早期阶段就被获取，同时这些模型能够捕捉各种级别语言的各种特征，包括语态、句法和语篇，但有时他们无法完成一些容易的任务。

Jul, 2022

通过神经语言模型进行语言的时间分析

该论文提出了一种自动检测语言变化的方法，通过一个按年度训练的神经语言模型来训练 Google Books Ngram 语料库，识别出 “cell” 和 “gay” 等单词在 1900 年至 2009 年间发生了显著变化并同时识别出这些单词发生变化的具体年份。

May, 2014