本文介绍了如何通过共分化现象的利用,建立跨语言数据集,以分析其在精神语言学、认知科学和多语言自然语言处理中的潜力,并在研究中发现了属于不同语言家族的元音和音素的显着相似性。
Jun, 2023
通过探索与语言的亲缘关系、接触领域、普遍性或偶然性相关的词汇联合,本研究通过构建大规模图表,包含语义、亲缘、音系和地理数据,从而揭示了亲缘稳定性和接触引起的变化对跨语言相似性的语言学影响。该研究支持了语言学领域先前的一个假设,并提供了反证证据,为跨学科研究,例如多语言自然语言处理和比较语言学,提供了一个开放的研究资源。
Jan, 2024
本文提出利用未标注的平行语料库识别超过 2000 个概念在 1335 种语言中的共同词汇模式,并使用此模型训练高质量的多语言嵌入,从而展示共同词汇模式在多语言自然语言处理中的潜力。
May, 2023
本文介绍了一种新的方法,可以有效地处理多语言词汇表中的部分共形式,包括提出了新的分析模型,开发了新的高效方法和工作流,并演示了如何计算分析和交互式可视化共形式的推断结果。
Feb, 2023
使用 Conceptualizer 方法对 1335 种语言中 83 个概念做出对齐,并且证明具有概念的跨语言稳定性,提出了一种语言之间的概念相似度的方法。
通过大量非母语英语使用者的语料库,研究发现词汇选择受到个人母语的影响,特别是语序和词汇语境,甚至从单个例子出发可以重构印欧语系的语言家族树。
May, 2018
通过两个大规模案例研究验证了一种方法,用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域,在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展,并揭示了即使在语言和文化上相近的社区内也存在着多样性的程度。
Aug, 2023
本文研究使用同义词词典定义语言中的连接词汇,从而构建语言的概念网络,发现该网络具有小世界结构以及幂律连接特征,对语言学和认知科学具有借鉴意义。
Jun, 2002
本文讨论了翻译口语英语的理论和实现问题,提出了一种基于 Whitelock 的 Shake and Bake 机器翻译范例的全自动大规模多语种自然语言处理系统,并使用词汇资源将商业传输的闭路电视信号中的 CE 输入文本翻译成简单的目标句子,目前该系统正在开发中,英语到西班牙语的翻译模块已经可用。
Jun, 1997
通过有监督学习,利用词嵌入作为解释变量,我们研究了具体性和形象性这两个概念的可预测性。我们利用与单一向量空间对齐的跨语言嵌入的集合在语言内和语言间进行预测。我们发现,具体性和形象性这两个概念在语言内和语言间都具有高度可预测性,跨语言预测的相关性损失最多达到 20%。我们进一步展示了通过词嵌入的跨语言传输比简单通过双语词典进行传输更加有效。
Jul, 2018