翻译重建:从翻译中重建语系进化树
本研究展示了如何利用语言的亲缘关系信息,以结构化、基于语言学的方式改进跨语言转移,并在多个语言家族(如日耳曼语族、乌拉尔语族、托皮语族和乌托邦 - 阿兹特克语族)上进行适配器训练,在句法和语义任务上实现相对性能提升超过 20%,特别是在没有预先训练的语言上。
May, 2022
通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立,我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能,并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。
Feb, 2024
通过比较词汇的遗传距离,在 Swadesh 列表中对同义词进行归一化的 Levenshtein 距离计算,提出了一种降低个人判断主观性的语言之间遗传距离计算方法,并利用该方法构建了一种印欧语系的语言树。
Aug, 2007
本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性,提供了支持语言相似性跨语言转移的实证证据,并利用这一发现,在不依赖类型学资源的情况下,直接从 ESL 文本中恢复母语类型学相似性结构,并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2%的准确度,具有与依赖类型学资源的等效方法相当的竞争力。
Apr, 2014
本研究探讨了多语言 BERT (mBERT) 的分层,分析了 100 种语言的地理和亲缘关系信号,并根据 mBERT 表示计算语言距离。我们使用这些语言距离推断和评估语言树,找到它们与参考家族树的角四树距离相近;通过距离矩阵回归分析,我们发现语言距离最好由亲缘关系因素解释,最差由结构因素解释;我们还提出了一种新的测量语言时序意义稳定性(基于跨语言表示变异性)的方法,它与基于语言方法的已发布排名列表之间呈显着相关。我们的研究结果对跨语言文本表示的类型学可解释性领域做出了贡献。
Nov, 2020
本文探讨了在翻译中尤其是在技术和科学文本中的干扰的本质,采用了描述性的方法。它透彻地阐述了干扰的历史、动机、后果以及对干扰现象的支持与反对的论据,强调翻译在不同社会间进行技术交流时的重要性。
Dec, 2023
本篇论文介绍了一个新的基于深度学习的方法来进行手稿放置,该方法可扩展至基因组的想法,并以序列到序列的神经网络模型来检索树距离。
Jun, 2022
研究语言的发展和通信在人类互动中的重要作用,语言研究已经成为定量化任务,其中包括定量比较语言学和词汇统计学,作者关注英语语言和拉丁字母的起源与发展,研究了印欧树追溯到原始印欧语的许多现代语言,通过数据分析使用 3 - 蜘蛛来表示语言聚类,通过聚类的距离来构建树状结构,初步结果发现了非粘性和粘性样本均值,由此判断语言是否来自不同的祖先或共有一个共同祖先。
May, 2024