Turkish 的自动词汇简化
本文利用最先进的神经网络模型和语言特征,对土耳其文本进行自动易读性评估,比较了传统易读公式和现代自动方法的有效性,并确定了影响土耳其文本易读性的关键语言特征。
Jun, 2023
该文介绍了基于土耳其语形态学的全面双层规范的 POS 标记器,通过局部邻域约束、启发式和有限量的统计信息,实现了形态学消歧,可以在很少的用户介入下准确地标记约 98-99%的文本。并且通过该标记器形态上消歧的句子,土耳其语 LFG 解析器的平均歧义解析减少了约 50%,且解析速度接近 2.5 倍。该标记功能不仅局限于土耳其语,还可以应用于具有适当形态学分析接口的任何语言。
Jul, 1994
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
Feb, 2023
本文提出了一种新的神经机器翻译方法,可以考虑语言的词形属性,基于无监督的形态学习在任何速率下减少给定输入语料库的词汇量,并在土耳其语 - 英语 NMT 任务中通过比较生成输出的语义和句法特性来验证方法的效果,与传统词汇量缩减技术相比,显著提高了 2.3 BLEU 分数,表现更好。
Jul, 2017
通过对荷兰语文本简化进行实证研究,我们提供了一个可配置的文本简化流水线的设计和实现,以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块,并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战,这是对荷兰语文本简化探索的第一步,并为未来的研究和实践提供了启示。
Aug, 2023
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
本研究呈现了一个新的数据集以适用于三种语言且提供了建立和评估词汇简化系统所需的高质量数据体。通过采用神经网络架构,对两种高级系统进行了适应和评估,结果在英语中表现最佳。
Sep, 2022
本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练,发现语言内嵌入是必要的,并且在训练集较大时可以避免形态分析。最终,我们发现这些模型在人工翻译的评估集上表现良好,并将所有的代码、模型和数据公开分享。
Apr, 2020
本文首次将母语辨识(NLI)应用于土耳其语。我们使用土耳其学习者语料库,结合三种句法特征(CFG 生成规则、词性 n-gram 和功能词)来证明它们在该任务中的有效性。
Jul, 2023
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023