土耳其自然语言推理的数据和表示
我们提出了一种 NLP 技术,利用通用翻译数据集和知识蒸馏技术,通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理,该技术在多个任务上展现了普适性。
Sep, 2023
本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集,包括 XNLI 测试和开发集,以改进原始 XNLI 数据集,并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理,同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言(如斯瓦希里和乌尔都语)中提高性能的可能性。
Jan, 2023
本文提出将 SNLI 风格自然语言推断的研究推向多语言评估,为阿拉伯语,法语,西班牙语和俄语提供测试数据,并使用跨语言词嵌入和机器翻译构建基线系统,最终系统的平均准确率超过了 75%,并着重实现了多语言推断的进一步研究。
Apr, 2017
本研究提出了一种基于句子转换模型的新方法,从庞大数量的大型问答数据集中自动派生自然语言推理(NLI)数据集,并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力,从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI),展示了它呈现的推理现象的宽泛性。
Sep, 2018
本文主要介绍了一个名为 Mukayese 的 NLP 基准集,它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试,并且为每个基准测试提供多个数据集和基准值。
Mar, 2022
介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率,并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。
Aug, 2022
该论文研究了自然语言推断数据的微调潜力,以提高信息检索和排名的效果,并通过使用来自波兰最大的电子商务网站和选定的开放领域数据,对英语和波兰语进行了验证。结果显示,使用对比损失和 NLI 数据进行微调可以提高模型在不同任务和语言方面的性能,并且有潜力改善单语和多语模型。最后,研究了嵌入向量的一致性和对齐性,以解释基于 NLI 的微调在域外应用中的效果。
Aug, 2023
本文主要研究阿拉伯语文本数据的分类,特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练,发现了具有竞争力的阿拉伯语特定模型(AraBERT),并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。
Jul, 2023
本文提出了一种元学习方法,结合多语言预训练表示和跨语言转移学习,推断波斯语自然语言,探讨任务增强策略在形成高质量任务方面的角色,并通过零 - shot 评估和 CCA 相似度找到适当的初始参数,相对于基线方法,该模型表现出了更好的性能。
May, 2022