利用跨语言特征提高低资源语言同源词检测的效果

COLINGDec, 2021

利用跨语言特征提高低资源语言同源词检测的效果

Harnessing Cross-lingual Features to Improve Cognate Detection for Low-resource Languages

Diptesh Kanojia, Raj Dabre, Shubham Dewangan, Pushpak Bhattacharyya, Gholamreza Haffari...

TL;DR使用跨语言词向量检测印度 14 种语言的同源词，通过知识图谱生成上下文特征表示以提高同源词检测方法，并在 12 种印度语言和 2 种新语言上评估此方法，获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进，最后公开代码和数据集。

Abstract

cognates are variants of the same lexical form across different languages; for example 'fonema' in Spanish and 'phoneme' in English are cognates, both of which mean 'a unit of sound'. The task of automatic detect

cognates cross-lingual word embeddings cognate detection neural machine translation indian languages

发现论文，激发创造

认知感知同源词检测

本文提出了一种新的方法，利用人类阅读者的凝视行为提取认知特征，用于自动检测同源词，并通过使用搜集到的和预测的视线行为数据，证明该方法可以帮助提高同源词检测任务的性能提高 10%，相比之前的方法预测视线行为数据的性能提高了 12%。

Dec, 2021

利用密切相关语言的形态学知识进行弱监督的低资源语言深度同源检测框架

为了解决资源匮乏语言中的迁移学习问题，本研究提出了一种基于形态学知识的跨语言弱监督深度同源词检测框架，通过训练编码器获得语言的形态学知识，并将此知识转移至密切相关的语言以进行无监督和弱监督的同源词检测。在不同的语系上进行了实验，得到了显著的改进和超越最先进的监督和无监督方法的结果。该模型对于任何语系的各种语言都具有扩展性，因为它克服了对同源词对进行训练注释的要求。

Nov, 2023

基于同源 Transformer 的自动同源检测作为有监督的链接预测任务

基于转换器的架构用于自动认知检测任务，在一定程度的监督下，该方法比现有方法表现更好，证明了利用标记信息的效果，并且通过接受多个序列对齐作为输入和具有链接预测头的端到端架构可以节省大量计算时间并同时产生更好的性能。

Feb, 2024

母语同源词对第二语言词汇选择的影响

通过大量非母语英语使用者的语料库，研究发现词汇选择受到个人母语的影响，特别是语序和词汇语境，甚至从单个例子出发可以重构印欧语系的语言家族树。

May, 2018

面向多语言神经翻译的同源词意感知形态分割

Aalto 大学使用基于 Transformer 模型的系统，通过引入跨语言的 Cognate Morfessor 来改进英语到芬兰语和爱沙尼亚语翻译的一致性，尤其是对于爱沙尼亚语这种资源相对较少的语言，同时在 WMT18 新闻翻译中取得了好的结果。

Aug, 2018

使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译

为了解决印地语交互下，由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题，本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法，结合 Byte Pair Embedding，可以更好地利用印地语相似性，并通过将不同但相似的语言映射到同一正交 - 语音字符空间来改进翻译质量。在低资源条件下，我们验证了提出的方法，并且在大多数情况下得到了改进，在类似语言对（Gujarati-Hindi，Marathi-Hindi，Nepali-Hindi，Maithili - Hindi，Punjabi-Hindi 和 Urdu-Hindi）中，在一个案例中提高了约 10 BLEU 分数，而在远程和零 - shot 语言对中还提高了约 1 个 BLEU 分数。

May, 2023

利用词对齐改进低资源语言的跨语言句子嵌入

跨语言句子嵌入领域最近取得了很大的进展，但是由于平行语料的稀缺性，对于低资源语言的研究相对滞后。本文表明当前模型中低资源语言的跨语言词表示与高资源语言的对齐程度明显不足。为了解决这个问题，我们引入了一种新的框架，通过使用现成的词对齐模型，显式地对英语和八种低资源语言之间的单词进行对齐。该框架包含三个主要的训练目标：对齐的单词预测、单词翻译排序，以及广泛使用的翻译排序。我们通过在双语检索任务上进行实验证明了我们的方法，该方法在低资源语言的句子嵌入上取得了显著的改进。此外，所提出模型在高资源语言上更广泛任务的竞争性表现凸显了其实用性。

Apr, 2024

低资源语言的同构跨语言嵌入

本论文提出了一种跨语言词嵌入学习框架，其综合利用相关高资源语言，以解决低资源语言跨语言表示学习中的几何结构相似度不足的问题，并通过双语词表感应和特征值相似性等多个语言对的实验验证，在新颖性和性能上均有所提升。

Mar, 2022

面向低资源印度语言的跨语言事实提取的大规模多语言语言模型

本研究提出 Cross Lingual Fact Extraction（CLFE）的任务，并针对使用自然低资源语言文本提出了一种端到端生成性方法，可实现 77.46 的整体 F1 分数。

Feb, 2023

跨语言嵌入的多语言攻击性语言识别

本文探讨了如何利用跨语境上下文词向量和迁移学习在使用资源较少的本地化语言中进行社交媒体中的冒犯内容检测，结果表明这个方法在孟加拉语、印地语和西班牙语等多种语言中的检测效率较高。

Oct, 2020