Turkish 的自动词汇简化

Jan, 2022

Automatic Lexical Simplification for Turkish

Ahmet Yavuz Uluslu

TL;DR本文提出了第一个适用于土耳其语的自动词汇简化系统，该系统利用预训练模型 BERT 和形态学特征来生成语法正确和语义恰当的单词级简化，以解决土耳其语作为低资源语言难以逼近的文本简化任务。

Abstract

In this paper, we present the first automatic lexical simplification system for the turkish language. Recent text simplification efforts rely on manually crafted simplified corpora and comprehensive →

turkish language lexical simplification nlp tools inflectional cases bert

发现论文，激发创造

探索土耳其文本可读性的语言特征

本文利用最先进的神经网络模型和语言特征，对土耳其文本进行自动易读性评估，比较了传统易读公式和现代自动方法的有效性，并确定了影响土耳其文本易读性的关键语言特征。

Jun, 2023

对土耳其文本进行标注和形态学消歧

该文介绍了基于土耳其语形态学的全面双层规范的 POS 标记器，通过局部邻域约束、启发式和有限量的统计信息，实现了形态学消歧，可以在很少的用户介入下准确地标记约 98-99％的文本。并且通过该标记器形态上消歧的句子，土耳其语 LFG 解析器的平均歧义解析减少了约 50％，且解析速度接近 2.5 倍。该标记功能不仅局限于土耳其语，还可以应用于具有适当形态学分析接口的任何语言。

Jul, 1994

多层次模块化方法的词汇简化

本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作，我们创建了一个模块化的流水线，将现代转换器模型与传统的 NLP 方法相结合，创建了一个多级和模块化的系统，用于根据词性标注处理目标文本，以实现文本简化的目标。

Feb, 2023

基于语言学的土耳其语到英语神经机器翻译词汇量缩减

本文提出了一种新的神经机器翻译方法，可以考虑语言的词形属性，基于无监督的形态学习在任何速率下减少给定输入语料库的词汇量，并在土耳其语 - 英语 NMT 任务中通过比较生成输出的语义和句法特性来验证方法的效果，与传统词汇量缩减技术相比，显著提高了 2.3 BLEU 分数，表现更好。

Jul, 2017

ARTIST: 人工智能用于简化文字

通过对荷兰语文本简化进行实证研究，我们提供了一个可配置的文本简化流水线的设计和实现，以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块，并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战，这是对荷兰语文本简化探索的第一步，并为未来的研究和实践提供了启示。

Aug, 2023

TSAR-2022 多语言词汇简化公开挑战赛研究结果

报告了 TSAR-2022 共享任务中多语言词汇简化的发现，该任务在 EMNLP 2022 举行，涉及英语，葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果，并且结果表明英语的简化效果比西班牙语和葡萄牙语更好，建立了新的基准结果。

Feb, 2023

英语、葡萄牙语和西班牙语的词汇简化基准

本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构，对两种高级系统进行了适应和评估，结果在英语中表现最佳。

Sep, 2022

土耳其自然语言推理的数据和表示

本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练，发现语言内嵌入是必要的，并且在训练集较大时可以避免形态分析。最终，我们发现这些模型在人工翻译的评估集上表现良好，并将所有的代码、模型和数据公开分享。

Apr, 2020

土耳其母语识别

本文首次将母语辨识（NLI）应用于土耳其语。我们使用土耳其学习者语料库，结合三种句法特征（CFG 生成规则、词性 n-gram 和功能词）来证明它们在该任务中的有效性。

Jul, 2023

多语言可控变压器模型词汇简化

提出了一种基于 Transformer 的多语言可控词汇简化系统，使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词，该系统在三个公开的词汇简化数据集上优于之前的最先进模型，表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能，且在西班牙语和葡萄牙语中获得性能提升。

Jul, 2023