- 多项选择数据集能否用于抽取式问答?
我们重新利用 Belebele 数据集,将其用于机器阅读理解中的抽取式问答任务,从而解决资源匮乏语言中的数据标注问题,并为英语和现代标准阿拉伯语(MSA)提供了平行的抽取式问答数据集,并在多种单语和跨语言的问答对中进行了评估和分析。
- 使用通用编码将文本映射到相同的语音 - 正字空间中的机器翻译
为了解决印地语交互下,由于语言间巨大的形态学复杂度而导致的低资源语言之间的翻译问题,本文提出了一种基于常见多语种拉丁编码的方法。使用这种方法,结合 Byte Pair Embedding,可以更好地利用印地语相似性,并通过将不同但相似的语言 - ACL跨语言生物医学实体链接的领域专用表示学习
通过提出一个新的跨语言生物医学实体链接任务并建立一个涵盖 10 种语言的基准测试,本文研究了在标准英语生物医学实体链接任务之外,标准、知识增强的单语和多语言语言模型的能力。同时解决了把资源丰富的语言中的领域特定知识传递给资源贫乏的语言的挑战 - AAAI学习学习资源贫乏语言的形态变化
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% - AAAI弱监督的词性标注器在真正的低资源语言上表现不佳
该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器,并发现即使使用现有最佳技术,在真正的低资源语言中,该标注器仅能正确标注不到一半的单词。因此,这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。
- 翻译和标记!一种编码器 - 解码器方法用于跨语言语义角色标注
提出一种跨语言编码器 - 解码器模型,用于在资源匮乏的目标语言中同时翻译和生成带有语义角色标注的句子。该方法可用于单语、多语言和跨语言环境,并能生成基于依存和跨度的 SRL 注释,通过使用生成的数据进行增量训练可提高资源匮乏语言的标注性能。
- IJCAI面向资源匮乏语言的跨语言任务特定表示学习用于文本分类
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
- 面向资源匮乏语言的基于表情符号表示的对比学习
提出了一种新方法,叫做使用孪生网络分类表情符号(CESNA),该方法使用孪生网络,通过相似度量基于表情符号来学习贫资源语言(如印地语和特卢古语)的表情符号表示,与资源丰富的语言一起训练并使其进入相同的表情符号空间。实验表明,CESNA 的预 - 利用翻译和句法信息传递语义角色转移
本文探讨使用平行数据从资源丰富语言的监督注释中进行语义角色标注的注释投影问题,并提出了一种转移方法来提高迭代自启动方法的质量。实验结果表明,与标准注释投影方法相比,我们的方法可以获得 3.5 个绝对标记 F 分数的提高。
- COLING使用双向递归神经网络引导多语言文本分析工具
本文旨在研究对于资源贫乏的语言的快速语言注释工具的发展,我们采用递归神经网络模型实验了多种跨语言注释映射方法。我们提出了一种真正的多语言标记器方法,并通过使用平行语料库证实了其有效性和通用性。
- 利用相关资源丰富的语言来改进资源匮乏语言的统计机器翻译
本文提出了一种新颖的语言无关方法,通过利用资源丰富的语言与资源贫乏的语言的相似性来改善后者的机器翻译,以达到减少训练数据的目的,并且评估结果表明,在少量并行语料库的情况下,改进了印尼语到英语和西班牙语到英语的翻译质量。