一种基于似然比检验的语言间遗传关系检测方法
通过比较词汇的遗传距离,在 Swadesh 列表中对同义词进行归一化的 Levenshtein 距离计算,提出了一种降低个人判断主观性的语言之间遗传距离计算方法,并利用该方法构建了一种印欧语系的语言树。
Aug, 2007
本文针对印度语言中不足文本资源的问题,提出了一种称为 RelateLM 的利用相关语言作为中间媒介的方法,通过音译和数据增强等技术,将限制资源语言文本转化到具备足够语料的相关语言中间站,从而提高多语言模型的适用性。
Jun, 2021
通过使用线性判别学习者以及多语义向量和多语言音类的多语言建模方法,该研究提供了一种计算方法来自动化测试语言之间的相互可理解性,并发现模型的理解准确性取决于词尾的自动修整和测试的语言对。
Feb, 2024
提出了一种基于重采样的方法,用于评估语料库中的关键性问题,通过建议 Gries(2006, 2022)来实现。该方法替代了单词逐个采样模型,而采用了更接近语料库实际组装方式的文档样本模型,并使用排列方法获得给定关键性得分在等频假设下的分布并得到 p 值。
Aug, 2023
通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立,我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能,并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。
Feb, 2024
本文介绍了一种测量关联相似性的方法 —— 潜在关联分析(LRA),该方法在信息提取、词义消岐和信息检索等领域具有潜在应用价值,并且与人类平均水平相当地达到了 374 个类比问题的 56% 的得分,同时,在语义关系分类的问题上,LRA 较 VSM 也取得了相似的增益。
Aug, 2006
通过探索与语言的亲缘关系、接触领域、普遍性或偶然性相关的词汇联合,本研究通过构建大规模图表,包含语义、亲缘、音系和地理数据,从而揭示了亲缘稳定性和接触引起的变化对跨语言相似性的语言学影响。该研究支持了语言学领域先前的一个假设,并提供了反证证据,为跨学科研究,例如多语言自然语言处理和比较语言学,提供了一个开放的研究资源。
Jan, 2024