语言树的准确性
通过比较词汇的遗传距离,在 Swadesh 列表中对同义词进行归一化的 Levenshtein 距离计算,提出了一种降低个人判断主观性的语言之间遗传距离计算方法,并利用该方法构建了一种印欧语系的语言树。
Aug, 2007
通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立,我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能,并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。
Feb, 2024
本文研究历史语言学中的声音变化规律及该规律如何使用比较法进行原形词的重构,提出使用神经序列模型对比较法数据集中的超过 8000 个比较条目进行原形词的预测,结果表明神经序列模型优于现有的传统方法。语音学变化的复杂性存在一定的差异,但该模型仍学习了有意义的语音规律。
Aug, 2019
本研究探讨了多语言 BERT (mBERT) 的分层,分析了 100 种语言的地理和亲缘关系信号,并根据 mBERT 表示计算语言距离。我们使用这些语言距离推断和评估语言树,找到它们与参考家族树的角四树距离相近;通过距离矩阵回归分析,我们发现语言距离最好由亲缘关系因素解释,最差由结构因素解释;我们还提出了一种新的测量语言时序意义稳定性(基于跨语言表示变异性)的方法,它与基于语言方法的已发布排名列表之间呈显着相关。我们的研究结果对跨语言文本表示的类型学可解释性领域做出了贡献。
Nov, 2020
通过 Bayesian 方法,提出一种基于出现历史性状的二元数据,从中估计具有时间深度的祖先树的模型分析,该方法基于出现历史性状的重要类别 (homology classes),并使用基于一种出生死亡过程 (birth-death process) 的模型来构建。
Nov, 2007
本研究展示了如何利用语言的亲缘关系信息,以结构化、基于语言学的方式改进跨语言转移,并在多个语言家族(如日耳曼语族、乌拉尔语族、托皮语族和乌托邦 - 阿兹特克语族)上进行适配器训练,在句法和语义任务上实现相对性能提升超过 20%,特别是在没有预先训练的语言上。
May, 2022
提出了一种半监督历史重建任务,其中模型只在少量有标记数据(原型形式的同源词集)和大量无标记数据(无原型形式的同源词集)上进行训练,并且通过提出的神经架构(DPD-BiReconstructor)能够利用无标记同源词集,在这一新任务上超越强大的半监督基准模型。
Jun, 2024
研究语言的发展和通信在人类互动中的重要作用,语言研究已经成为定量化任务,其中包括定量比较语言学和词汇统计学,作者关注英语语言和拉丁字母的起源与发展,研究了印欧树追溯到原始印欧语的许多现代语言,通过数据分析使用 3 - 蜘蛛来表示语言聚类,通过聚类的距离来构建树状结构,初步结果发现了非粘性和粘性样本均值,由此判断语言是否来自不同的祖先或共有一个共同祖先。
May, 2024
研究了来自 Longobardi、Collins、Ceolin 和 Koopman 的句法结构数据中存在的系统发育信号,通过比较生成的系统发育树和语言学社区所认可的树,探讨了这些数据符合马尔科夫模型假设的程度,同时将 Ceolin 等人的方法解释为一个无限位点的演化模型,并与数据的一致性进行比较。本文讨论的思想和方法不仅适用于句法结构的具体设置,还可以用于其他上下文,分析数据与预测的演化模型的一致性。
Apr, 2021