土耳其自然语言推理的数据和表示

EMNLPApr, 2020

土耳其自然语言推理的数据和表示

Data and Representation for Turkish Natural Language Inference

Emrah Budur, Rıza Özçelik, Tunga Güngör, Christopher Potts

TL;DR本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练，发现语言内嵌入是必要的，并且在训练集较大时可以避免形态分析。最终，我们发现这些模型在人工翻译的评估集上表现良好，并将所有的代码、模型和数据公开分享。

Abstract

Large annotated datasets in nlp are overwhelmingly in English. This is an obstacle to progress in other languages. Unfortunately, obtaining new annotated resources for each task in each language would be prohibitively expensive. At the same time, commercial →

nlp english datasets machine translation turkish nli embedding

发现论文，激发创造

一种无需特定语言训练数据的深度自然语言推理预测器

我们提出了一种 NLP 技术，利用通用翻译数据集和知识蒸馏技术，通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理，该技术在多个任务上展现了普适性。

Sep, 2023

XNLI 2.0：改进 XNLI 数据集和跨语言理解（XLU）性能

本篇研究通过重新翻译 14 种不同语言的 MNLI 数据集，包括 XNLI 测试和开发集，以改进原始 XNLI 数据集，并通过在 15 种不同语言中训练模型并分析其在自然语言推断任务上的表现来实现跨语言理解和自然语言处理，同时通过在英语以外的语言中训练模型来探索在资源匮乏的语言（如斯瓦希里和乌尔都语）中提高性能的可能性。

Jan, 2023

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

突厥语言机器翻译的大规模研究

本文是大规模实际应用机器翻译于突厥语系的案例研究，在高、低资源场景下使用平行语料库、双语基准和人工评估结果来识别瓶颈，并提供这些数据与模型的公开开放。

Sep, 2021

将问答数据集转化为自然语言推断数据集

本研究提出了一种基于句子转换模型的新方法，从庞大数量的大型问答数据集中自动派生自然语言推理（NLI）数据集，并展示了其将多种问答数据集成功应用于自然语言推理数据集的能力，从而新派生出包含 50 万个以上 NLI 示例的免费数据集 (QA-NLI)，展示了它呈现的推理现象的宽泛性。

Sep, 2018

Mukayese：土耳其自然语言处理反击

本文主要介绍了一个名为 Mukayese 的 NLP 基准集，它为土耳其语提供了语言建模、句子段落化和拼写检查等多项基准测试，并且为每个基准测试提供多个数据集和基准值。

Mar, 2022

基于通用语言模型的非英语医学自然语言处理注释数据集构建

介绍了如何利用预训练语言模型提升非英语医学文本处理的 NLP 任务效率和数据集命中率，并且用我们的方法在德语文本上训练了一个医学 NER 模型 GPTNERMED。

Aug, 2022

通过 NLI 微调改进领域特定检索

该论文研究了自然语言推断数据的微调潜力，以提高信息检索和排名的效果，并通过使用来自波兰最大的电子商务网站和选定的开放领域数据，对英语和波兰语进行了验证。结果显示，使用对比损失和 NLI 数据进行微调可以提高模型在不同任务和语言方面的性能，并且有潜力改善单语和多语模型。最后，研究了嵌入向量的一致性和对齐性，以解释基于 NLI 的微调在域外应用中的效果。

Aug, 2023

利用变压器模型和语言学知识预训练技术提升阿拉伯语自然语言推断能力

本文主要研究阿拉伯语文本数据的分类，特别关注自然语言推理和矛盾检测。通过创建专用数据集并利用语言学上知识进行预训练，发现了具有竞争力的阿拉伯语特定模型（AraBERT），并成功应用于大规模任务评估及多任务预训练的首个阿拉伯语背景应用。

Jul, 2023

波斯语自然语言推理：元学习方法

本文提出了一种元学习方法，结合多语言预训练表示和跨语言转移学习，推断波斯语自然语言，探讨任务增强策略在形成高质量任务方面的角色，并通过零 - shot 评估和 CCA 相似度找到适当的初始参数，相对于基线方法，该模型表现出了更好的性能。

May, 2022