多语言词汇表中的部分词类联合推断

Feb, 2023

多语言词汇表中的部分词类联合推断

Inference of Partial Colexifications from Multilingual Wordlists

Johann-Mattis List

TL;DR本文介绍了一种新的方法，可以有效地处理多语言词汇表中的部分共形式，包括提出了新的分析模型，开发了新的高效方法和工作流，并演示了如何计算分析和交互式可视化共形式的推断结果。

Abstract

The past years have seen a drastic rise in studies devoted to the investigation of colexification patterns in individual languages families in particular and the languages of the world in specific. Specifically computational studies have profited from the fact that →

colexification partial colexifications multilingual wordlists computational analysis

发现论文，激发创造

基于多语言共词图的低资源语言跨语言迁移学习

本文提出利用未标注的平行语料库识别超过 2000 个概念在 1335 种语言中的共同词汇模式，并使用此模型训练高质量的多语言嵌入，从而展示共同词汇模式在多语言自然语言处理中的潜力。

May, 2023

跨语言数据集引导的共现词性：以音系、抽象性和情感为案例

本文介绍了如何通过共分化现象的利用，建立跨语言数据集，以分析其在精神语言学、认知科学和多语言自然语言处理中的潜力，并在研究中发现了属于不同语言家族的元音和音素的显着相似性。

Jun, 2023

美洲土著语的共兰词中的亲密性和抽象性模式

本文将考察语言学、语言学、多义性、具体性和抽象性这五个关键词在美洲土著语中的联系和共发现现象。

Dec, 2023

世界语言中的持久性和传播性模式

通过探索与语言的亲缘关系、接触领域、普遍性或偶然性相关的词汇联合，本研究通过构建大规模图表，包含语义、亲缘、音系和地理数据，从而揭示了亲缘稳定性和接触引起的变化对跨语言相似性的语言学影响。该研究支持了语言学领域先前的一个假设，并提供了反证证据，为跨学科研究，例如多语言自然语言处理和比较语言学，提供了一个开放的研究资源。

Jan, 2024

LEXpander: 将共同义词网络应用于自动词汇扩展

本文介绍一种基于 colexification 方法的词库扩展方法，名为 LEXpander，通过该方法生成的单词列表在各个测试中表现良好，可以近似于心理学和语言学专家生成的单词列表。

May, 2022

修剪语音对齐改善从多语言词汇列表中推断音对应模式

本研究提出了基于生物进化中所采用的修剪技术的音位对齐修剪工作流程来改进语音拟音同源语识别技术，经实验证明这种方法可以大幅度提升同源识别的一致性，增加高频的音位对应规律和通用的同源单词的比例。

Mar, 2023

词汇表的（非）最佳性如何？

本文提出了一种基于编码理论的词库可压缩性的分析方法，并通过研究各种语言的语料库，发现了构成型形态学和书写规则可以充分解释自然编码的大部分复杂性。

Apr, 2021

词汇模式的序数分析

使用序数模式方法，分析了 11 种主要语言的词汇统计连接，并发现不同语言表达单词关系的方式构成了独特的模式分布，这些模式分布的波动可以确定文本的历史时期和作者，结果凸显了序数时间序列分析在语言学、历史语言学和文体学中的相关性。

Aug, 2022

在多语言词列表中检测主流语言的词汇借用

研究探讨了语言接触中主导语言对被介入语言的影响，通过使用三种方法（其中包括两种传统的序列比较方法和一种机器学习方法）在拉丁美洲七种常常和西班牙语有大量交流和借词的语言中测试新型的词汇借用检测方法，并通过检测中的误差反映出通过考虑来自受体语言不同意义的捐赠词汇可以大大提高借贷检测的精度。

Feb, 2023

无国界的形态学：从子句层面考虑

本文通过提出一种基于句子层面的形态学，并创建了一个新的、基于句子层面的多语言数据集 MightyMorph，得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性，同时提供一种方便的界面与语境化语言模型（LMs）相接，评估这些模型中编码的形态学知识和它们用于形态学任务的可用性，为跨语言神经形态的研究打开了新的视野。

Feb, 2022