Apr, 2024

整合主观性的计算方法在同根词别选中的应用

TL;DR处理同源数据涉及处理同义词,即在一种语言中描述相同概念的多个词。本文展示了利用二元特征矩阵可以表示包括所有同义词的整个数据集,使用 RAxML-NG 工具进行最大似然树推断可得到合理的树。建议不要事先选择同义词,而是包含所有同义词以表示同源数据。文章还介绍了概率二元和概率多值特征矩阵,并证明了使用哪种特征矩阵类型推断的 RAxML-NG 树与黄金标准拓扑上最接近是依赖于数据集。还提供了一个用于根据 CLDF 格式生成上述所有特征矩阵类型的 Python 接口。