从古至今:神经原语言重建
提出了一种半监督历史重建任务,其中模型只在少量有标记数据(原型形式的同源词集)和大量无标记数据(无原型形式的同源词集)上进行训练,并且通过提出的神经架构(DPD-BiReconstructor)能够利用无标记同源词集,在这一新任务上超越强大的半监督基准模型。
Jun, 2024
本文介绍一种最先进的神经网络方法,用于无监督重建古代词形。通过使用具有单调对齐约束的神经模型,本方法可以捕捉更复杂的语音和形态变化,实现从五种罗曼语言中的藏语重构拉丁文词汇,并显著提高了与以前方法相比的编辑距离减少率。
Nov, 2022
我们将蛋白质语言模型 MSA Transformer(多序列比对变换器)应用于自动语音演变重建问题,命名为同源变换器,并在同源反射预测任务中得出优于现有模型的结果,特别是在掩码词预测任务的预训练下。
Oct, 2023
本文介绍了一种新的计算机模型,该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术,可用于监督祖先语言的单词形态学恢复,测试结果表明该方法既快速又易于实现和扩展。
Apr, 2022
使用 RNN-based encoder-decoder with attention model 和 Transformer 模型进行原型重建,分析了语言谱系启示信号。
Jul, 2023
本文探讨了使用诊断分类器和表征相似性分析两种分析技术来衡量神经网络模型中语音学的表现,并研究了两个因素对分析结果的影响,最终得出全局范围方法往往提供更一致的结果且应作为本地范围方法的补充。
Apr, 2020
本文介绍了探测方法学,通过使用外部分类器和统计分析,可以获得内层神经网络中存储的语言现象的部分表示。我们对多个 transformer 英语模型进行了时间顺序探测研究,并提供了这种探测研究的开源框架。结果表明,语言信息在训练的早期阶段就被获取,同时这些模型能够捕捉各种级别语言的各种特征,包括语态、句法和语篇,但有时他们无法完成一些容易的任务。
Jul, 2022
该论文提出了一种自动检测语言变化的方法,通过一个按年度训练的神经语言模型来训练 Google Books Ngram 语料库,识别出 “cell” 和 “gay” 等单词在 1900 年至 2009 年间发生了显著变化并同时识别出这些单词发生变化的具体年份。
May, 2014