翻译重建：从翻译中重建语系进化树

ACLApr, 2017

翻译重建：从翻译中重建语系进化树

Found in Translation: Reconstructing Phylogenetic Language Trees from Translations

Ella Rabinovich, Noam Ordan, Shuly Wintner

TL;DR翻译包含源语言的强信号，使得从单语文本中还原出源语言的语言树成为可能。源语言干扰是翻译文本最显著的特征，超越了更微妙的翻译普遍属性信号。

Abstract

translation has played an important role in trade, law, commerce, politics, and literature for thousands of years. Translators have always tried to be invisible; ideal translations should look as if they were written originally in the target language. We show that traces of the

translation source language phylogenetic language trees interference universal properties

发现论文，激发创造

语言树的准确性

通过 Ethnologue 专家分类的比较，对使用全球语言数据库进行语系重构的距离方法进行了全面调查和准确性评估，并量化了数据库的完整性和覆盖范围对重构准确性的影响。

Mar, 2011

基于系统发育的多语种模型自适应到新语言

本研究展示了如何利用语言的亲缘关系信息，以结构化、基于语言学的方式改进跨语言转移，并在多个语言家族（如日耳曼语族、乌拉尔语族、托皮语族和乌托邦 - 阿兹特克语族）上进行适配器训练，在句法和语义任务上实现相对性能提升超过 20%，特别是在没有预先训练的语言上。

May, 2022

声音在系统发育重构中是否有效？

通过对十个不同语系的多样数据集和最先进的自动同源词和音序对照检测方法的建立，我们首次测试了基于音序对比与基于同源词对比的方法在语系重建中的性能，并发现从同源词重建的语系与黄金标准语系之间的拓扑距离平均上缩短了约三分之一。

Feb, 2024

Levenshtein 距离下的印欧语系树

通过比较词汇的遗传距离，在 Swadesh 列表中对同义词进行归一化的 Levenshtein 距离计算，提出了一种降低个人判断主观性的语言之间遗传距离计算方法，并利用该方法构建了一种印欧语系的语言树。

Aug, 2007

从外语使用中重构母语语言类型

本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性，提供了支持语言相似性跨语言转移的实证证据，并利用这一发现，在不依赖类型学资源的情况下，直接从 ESL 文本中恢复母语类型学相似性结构，并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2％的准确度，具有与依赖类型学资源的等效方法相当的竞争力。

Apr, 2014

探索多语言 BERT 对遗传和类型信号的探测

本研究探讨了多语言 BERT (mBERT) 的分层，分析了 100 种语言的地理和亲缘关系信号，并根据 mBERT 表示计算语言距离。我们使用这些语言距离推断和评估语言树，找到它们与参考家族树的角四树距离相近；通过距离矩阵回归分析，我们发现语言距离最好由亲缘关系因素解释，最差由结构因素解释；我们还提出了一种新的测量语言时序意义稳定性（基于跨语言表示变异性）的方法，它与基于语言方法的已发布排名列表之间呈显着相关。我们的研究结果对跨语言文本表示的类型学可解释性领域做出了贡献。

Nov, 2020

个性化机器翻译：保留原作者特点

研究作者的性别在自然语言与翻译中所表现的个性化特征以及提出了简单的领域自适应技术来保持翻译的原始性别特征而不影响翻译质量。

Oct, 2016

技术与科学翻译中的原则干扰

本文探讨了在翻译中尤其是在技术和科学文本中的干扰的本质，采用了描述性的方法。它透彻地阐述了干扰的历史、动机、后果以及对干扰现象的支持与反对的论据，强调翻译在不同社会间进行技术交流时的重要性。

Dec, 2023

可否将编目语言翻译为文献树语言？使用机器翻译进行文献定位

本篇论文介绍了一个新的基于深度学习的方法来进行手稿放置，该方法可扩展至基因组的想法，并以序列到序列的神经网络模型来检索树距离。

Jun, 2022

使用树空间对 Swadesh 列表进行采样以识别相似语言

研究语言的发展和通信在人类互动中的重要作用，语言研究已经成为定量化任务，其中包括定量比较语言学和词汇统计学，作者关注英语语言和拉丁字母的起源与发展，研究了印欧树追溯到原始印欧语的许多现代语言，通过数据分析使用 3 - 蜘蛛来表示语言聚类，通过聚类的距离来构建树状结构，初步结果发现了非粘性和粘性样本均值，由此判断语言是否来自不同的祖先或共有一个共同祖先。

May, 2024