多语言词汇表中的部分词类联合推断
本文提出利用未标注的平行语料库识别超过 2000 个概念在 1335 种语言中的共同词汇模式,并使用此模型训练高质量的多语言嵌入,从而展示共同词汇模式在多语言自然语言处理中的潜力。
May, 2023
本文介绍了如何通过共分化现象的利用,建立跨语言数据集,以分析其在精神语言学、认知科学和多语言自然语言处理中的潜力,并在研究中发现了属于不同语言家族的元音和音素的显着相似性。
Jun, 2023
通过探索与语言的亲缘关系、接触领域、普遍性或偶然性相关的词汇联合,本研究通过构建大规模图表,包含语义、亲缘、音系和地理数据,从而揭示了亲缘稳定性和接触引起的变化对跨语言相似性的语言学影响。该研究支持了语言学领域先前的一个假设,并提供了反证证据,为跨学科研究,例如多语言自然语言处理和比较语言学,提供了一个开放的研究资源。
Jan, 2024
本文介绍一种基于 colexification 方法的词库扩展方法,名为 LEXpander,通过该方法生成的单词列表在各个测试中表现良好,可以近似于心理学和语言学专家生成的单词列表。
May, 2022
本研究提出了基于生物进化中所采用的修剪技术的音位对齐修剪工作流程来改进语音拟音同源语识别技术,经实验证明这种方法可以大幅度提升同源识别的一致性,增加高频的音位对应规律和通用的同源单词的比例。
Mar, 2023
使用序数模式方法,分析了 11 种主要语言的词汇统计连接,并发现不同语言表达单词关系的方式构成了独特的模式分布,这些模式分布的波动可以确定文本的历史时期和作者,结果凸显了序数时间序列分析在语言学、历史语言学和文体学中的相关性。
Aug, 2022
研究探讨了语言接触中主导语言对被介入语言的影响,通过使用三种方法(其中包括两种传统的序列比较方法和一种机器学习方法)在拉丁美洲七种常常和西班牙语有大量交流和借词的语言中测试新型的词汇借用检测方法,并通过检测中的误差反映出通过考虑来自受体语言不同意义的捐赠词汇可以大大提高借贷检测的精度。
Feb, 2023
本文通过提出一种基于句子层面的形态学,并创建了一个新的、基于句子层面的多语言数据集 MightyMorph,得出基于句子层面的变形、重新变形和分析任务比基于单词水平的任务更具挑战性,同时提供一种方便的界面与语境化语言模型(LMs)相接,评估这些模型中编码的形态学知识和它们用于形态学任务的可用性,为跨语言神经形态的研究打开了新的视野。
Feb, 2022