关键词bilingual sentence embeddings
搜索结果 - 3
- 分治法提高句子对齐精度
本研究介绍了一种分治算法,利用外部双语句子嵌入来找到精确的边界,将任何二次时间复杂度的句子对齐算法转化为平均时间复杂度为 O (NlogN) 的算法,并在标准 OCR 生成的数据集上将 Bleualign 基线提高了 3 个 F1 点。
- ACL通过自编码学习双语句子嵌入并使用多层感知器计算相似度
本文提出一种新型模型架构及培训算法,可从平行和单语数据的组合中学习双语句子嵌入。我们通过自编码和神经机器翻译将源语言和目标语言的句子嵌入连接起来。并通过多层感知机来提取非平行或有噪声的双语句对,此方法在句子对齐和 WMT2018 上表现出有 - 使用双语句子嵌入的有效并行语料库挖掘
该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。