序列切分词汇的对齐分析以提高自动同源词检测
基于转换器的架构用于自动认知检测任务,在一定程度的监督下,该方法比现有方法表现更好,证明了利用标记信息的效果,并且通过接受多个序列对齐作为输入和具有链接预测头的端到端架构可以节省大量计算时间并同时产生更好的性能。
Feb, 2024
本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵,提取出文档的重要特征,通过将两种余弦相似度变量与 URL 相似度量的结合,可以达到高精度的 Web 页面对齐。
Jul, 2017
本文提出了一种新的方法,利用人类阅读者的凝视行为提取认知特征,用于自动检测同源词,并通过使用搜集到的和预测的视线行为数据,证明该方法可以帮助提高同源词检测任务的性能提高 10%,相比之前的方法预测视线行为数据的性能提高了 12%。
Dec, 2021
Aalto 大学使用基于 Transformer 模型的系统,通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性,尤其是对于爱沙尼亚语这种资源相对较少的语言,同时在 WMT18 新闻翻译中取得了好的结果。
Aug, 2018
本研究提出了基于生物进化中所采用的修剪技术的音位对齐修剪工作流程来改进语音拟音同源语识别技术,经实验证明这种方法可以大幅度提升同源识别的一致性,增加高频的音位对应规律和通用的同源单词的比例。
Mar, 2023
本文提出了一种基于扩展对齐和多层向量的方法来预测同源词反应,并利用并行语料库进行模型的训练和评估,实验结果表明使用随机森林模型可以得到较好的预测效果。
May, 2022
研究一种使用 BERT 表示组成部分的句子的模型,结合指针网络和 ConceptNet 等知识,实现对文本语义相似性的可解释性分析。实验结果表明,该模型在 chunk alignment 任务上取得了显著的性能提升。
Jul, 2020
使用跨语言词向量检测印度 14 种语言的同源词,通过知识图谱生成上下文特征表示以提高同源词检测方法,并在 12 种印度语言和 2 种新语言上评估此方法,获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进,最后公开代码和数据集。
Dec, 2021
本篇论文介绍了一种线性文本分割的方法,相比于现有技术(Reynar,1998),其准确性提高了两倍,速度加快了七倍以上。该方法通过局部上下文中的排名替代句间相似度,并利用分裂聚类发现边界位置。
Mar, 2000