一种基于似然比检验的语言间遗传关系检测方法

ACLMar, 2024

一种基于似然比检验的语言间遗传关系检测方法

A Likelihood Ratio Test of Genetic Relationship among Languages

V.S.D.S.Mahesh Akavarapu, Arnab Bhattacharya

TL;DR语言间的词汇相似性表明它们可能存在遗传关系，然而这些相似性也可能是偶然的，并不总是意味着潜在的遗传关系。本文提出了一种似然比检验的方法来确定语言之间的关系，并评估了一些语系，证明了该检验的可行性和支持了宏观语系的存在。

Abstract

lexical resemblances among a group of languages indicate that the languages could be genetically related, i.e., they could have descended from a common ancestral language. However, such resemblances can arise by chance and, hence, need not always imply an underlying →

lexical resemblances genetic relationship significance tests likelihood ratio test macro language families

发现论文，激发创造

Levenshtein 距离下的印欧语系树

通过比较词汇的遗传距离，在 Swadesh 列表中对同义词进行归一化的 Levenshtein 距离计算，提出了一种降低个人判断主观性的语言之间遗传距离计算方法，并利用该方法构建了一种印欧语系的语言树。

Aug, 2007

通过句法距离和地理邻近性探索语言关系

使用基于词性标注的三元组来计算语言间的语言距离，发现语言之间存在明确的族群和组群，且语言之间的相似性与地理距离呈显著相关。

Mar, 2024

利用语言相关性进行低网络资源语言模型适应：印度语言研究

本文针对印度语言中不足文本资源的问题，提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法，通过音译和数据增强等技术，将限制资源语言文本转化到具备足够语料的相关语言中间站，从而提高多语言模型的适用性。

Jun, 2021

评估密切相关语言间相互可理解性的计算模型

通过使用线性判别学习者以及多语义向量和多语言音类的多语言建模方法，该研究提供了一种计算方法来自动化测试语言之间的相互可理解性，并发现模型的理解准确性取决于词尾的自动修整和测试的语言对。

Feb, 2024

使用排列检验进行关键性评估

提出了一种基于重采样的方法，用于评估语料库中的关键性问题，通过建议 Gries（2006, 2022）来实现。该方法替代了单词逐个采样模型，而采用了更接近语料库实际组装方式的文档样本模型，并使用排列方法获得给定关键性得分在等频假设下的分布并得到 p 值。

Aug, 2023

语言树的准确性

通过 Ethnologue 专家分类的比较，对使用全球语言数据库进行语系重构的距离方法进行了全面调查和准确性评估，并量化了数据库的完整性和覆盖范围对重构准确性的影响。

Mar, 2011

声音在系统发育重构中是否有效？

通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立，我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能，并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。

Feb, 2024

语义关系的相似性

本文介绍了一种测量关联相似性的方法 —— 潜在关联分析（LRA），该方法在信息提取、词义消岐和信息检索等领域具有潜在应用价值，并且与人类平均水平相当地达到了 374 个类比问题的 56% 的得分，同时，在语义关系分类的问题上，LRA 较 VSM 也取得了相似的增益。

Aug, 2006

概念语言相似性的研究：比较与评估

本研究旨在将语言学的特性纳入到自然语言处理（NLP）中，通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。

May, 2023

世界语言中的持久性和传播性模式

通过探索与语言的亲缘关系、接触领域、普遍性或偶然性相关的词汇联合，本研究通过构建大规模图表，包含语义、亲缘、音系和地理数据，从而揭示了亲缘稳定性和接触引起的变化对跨语言相似性的语言学影响。该研究支持了语言学领域先前的一个假设，并提供了反证证据，为跨学科研究，例如多语言自然语言处理和比较语言学，提供了一个开放的研究资源。

Jan, 2024