序列切分词汇的对齐分析以提高自动同源词检测

ACLNov, 2018

序列切分词汇的对齐分析以提高自动同源词检测

Alignment Analysis of Sequential Segmentation of Lexicons to Improve Automatic Cognate Detection

Pranav A

TL;DR本篇论文利用信息检索中的排名函数，应用于同源检测，针对同源检测的难点，使用语言模型平滑方法和位置分割与错误建模技术，相比其他基线方法在分类和预测中表现更佳。

Abstract

ranking functions in information retrieval are often used in search engines to recommend the relevant answers to the query. This paper makes use of this notion of →

ranking functions information retrieval cognate detection positional segmentation graphical error modelling

发现论文，激发创造

基于同源 Transformer 的自动同源检测作为有监督的链接预测任务

基于转换器的架构用于自动认知检测任务，在一定程度的监督下，该方法比现有方法表现更好，证明了利用标记信息的效果，并且通过接受多个序列对齐作为输入和具有链接预测头的端到端架构可以节省大量计算时间并同时产生更好的性能。

Feb, 2024

使用潜在语义索引实现双语文档对齐

本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵，提取出文档的重要特征，通过将两种余弦相似度变量与 URL 相似度量的结合，可以达到高精度的 Web 页面对齐。

Jul, 2017

认知感知同源词检测

本文提出了一种新的方法，利用人类阅读者的凝视行为提取认知特征，用于自动检测同源词，并通过使用搜集到的和预测的视线行为数据，证明该方法可以帮助提高同源词检测任务的性能提高 10%，相比之前的方法预测视线行为数据的性能提高了 12%。

Dec, 2021

面向多语言神经翻译的同源词意感知形态分割

Aalto 大学使用基于 Transformer 模型的系统，通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性，尤其是对于爱沙尼亚语这种资源相对较少的语言，同时在 WMT18 新闻翻译中取得了好的结果。

Aug, 2018

修剪语音对齐改善从多语言词汇列表中推断音对应模式

本研究提出了基于生物进化中所采用的修剪技术的音位对齐修剪工作流程来改进语音拟音同源语识别技术，经实验证明这种方法可以大幅度提升同源识别的一致性，增加高频的音位对应规律和通用的同源单词的比例。

Mar, 2023

利用扩展语音对韵律预测视为一种分类问题的方法

本文提出了一种基于扩展对齐和多层向量的方法来预测同源词反应，并利用并行语料库进行模型的训练和评估，实验结果表明使用随机森林模型可以得到较好的预测效果。

May, 2022

逻辑受限指针网络：用于可解释的文本相似度

研究一种使用 BERT 表示组成部分的句子的模型，结合指针网络和 ConceptNet 等知识，实现对文本语义相似性的可解释性分析。实验结果表明，该模型在 chunk alignment 任务上取得了显著的性能提升。

Jul, 2020

利用跨语言特征提高低资源语言同源词检测的效果

使用跨语言词向量检测印度 14 种语言的同源词，通过知识图谱生成上下文特征表示以提高同源词检测方法，并在 12 种印度语言和 2 种新语言上评估此方法，获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进，最后公开代码和数据集。

Dec, 2021

多序列比对引导词汇选择

通过多重序列比对算法自动获取多语言语料库中的基本语义表达，用于计算机生成数学证明的自然语言版本。

May, 2002

领域无关线性文本分割的进展

本篇论文介绍了一种线性文本分割的方法，相比于现有技术（Reynar，1998），其准确性提高了两倍，速度加快了七倍以上。该方法通过局部上下文中的排名替代句间相似度，并利用分裂聚类发现边界位置。

Mar, 2000