多语言 BERT 对鄂图曼土耳其语的依赖注释

Feb, 2024

多语言 BERT 对鄂图曼土耳其语的依赖注释

Dependency Annotation of Ottoman Turkish with Multilingual BERT

Şaziye Betül Özateş, Tarık Emre Tıraş, Efe Eren Genç, Esma Fatıma Bilgin Taşdemir

TL;DR使用预先训练的大型语言模型进行注释方法的研究，针对奥斯曼土耳其语第一个依赖树库。实验结果表明，通过迭代使用多语言 BERT 解析模型进行伪标注数据，手动纠正伪注释以及使用纠正的注释对解析模型进行微调，我们加快了并简化了具有挑战性的依赖注释过程。生成的树库将成为通用依赖项目的一部分，将有助于解锁奥斯曼土耳其语历史遗产中蕴含的语言丰富性，从而实现奥斯曼土耳其语文档的自动化分析。

Abstract

This study introduces a pretrained large language model-based annotation methodology for the first dependency treebank in ottoman turkish.

pretrained large language model annotation methodology ottoman turkish dependency treebank universal dependencies

发现论文，激发创造

Turkish 依赖解析资源：介绍 BOUN Treebank 和 BoAT 标注工具

本文介绍我们开发的用于土耳其语依存分析的资源，这些资源包括新型的手动标注树库（BOUN Treebank）、我们采用的指南以及一个新的标注工具（BoAT）。我们采用的手动标注过程是由四名语言学家和五名自然语言处理专家组成的团队塑造和实施的。BOUN Treebank 是迄今为止最大的土耳其语树库之一，包含来自各种主题的 9,761 个句子，包括传记文本、国家报纸、指令性文本、流行文化文章和短文。此外，我们还报告了在 BOUM Treebank 和其他两个土耳其树库上获得的最新依赖解析器的解析结果。我们的结果表明，统一土耳其标注方案并引入更全面的树库可提高依赖分析的性能。

Feb, 2020

反映土耳其语聚合性质的 BOUN 语料库的增强

本研究旨在通过引入新的注释约定来解决土耳其语在 BOUN Treebank 中的空态词素、高度生产的派生过程和混合词素等问题，并基于新注释的数据集进行了依赖关系分析和工具更新。

Jul, 2022

土耳其自然语言推理的数据和表示

本研究旨在利用商业机器翻译系统自动翻译英语数据集以进行 Turkish NLI 模型的训练，发现语言内嵌入是必要的，并且在训练集较大时可以避免形态分析。最终，我们发现这些模型在人工翻译的评估集上表现良好，并将所有的代码、模型和数据公开分享。

Apr, 2020

依存句法分析器的三倍训练的再探讨

本研究比较了两种半监督学习技术，即 tri-training 和预训练词嵌入，在依存句法分析任务中的表现。研究探讨了语言特定的 FastText 和 ELMo 嵌入以及多语言 BERT 嵌入，并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明，预训练词嵌入比 tri-training 更有效地利用了未标记数据，但这两种方法可以成功地结合使用。

Sep, 2021

75 种语言，1 个模型：通用依存关系的全球解析

UDify 是一个多语言多任务模型，可以准确预测 75 种语言中 124 个通用依赖树库的通用词性、形态特征、词形和依赖树，无需任何循环或语言特定组件，并且在跨语言注释方面对低资源语言起到关键作用，并且可以进行零 - shot 学习。

Apr, 2019

泰国通用依赖树库

本研究通过引入泰语通用依存树库（TUD）解决了自动依存解析泰语句子的问题，并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型，在评估结果中表明大多数模型能够胜过前期研究中的其他模型，为泰语依存解析器的最佳组件选择提供了见解，并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。

May, 2024

RoBERTurk：针对土耳其语进行 RoBERTa 的调整

使用 BPE 分词工具，我们在土耳其语语料库上对 RoBERTa 进行预训练，模型在 BOUN 数据集上的词性标注任务中优于 BERTurk 系列模型，在 IMST 数据集上表现不佳，在土库曼语的 XTREME 数据集上的命名实体识别任务上获得竞争性的分数，且只使用了较小的预训练数据，我们公开了我们的预训练模型和分词工具。

Jan, 2024

针对土耳其文本的目标情感分析数据集和基于 BERT 的模型

本研究旨在利用目标情感分析从给定的文本中提取针对特定目标的情感，我们提供了适用于目标情感分析的标注土耳其数据集，并提出了基于 BERT 的模型，结果表明，与传统情感分析模型相比，所提出的模型具有更好的性能。

May, 2022

开发和评估小到中型土耳其 BERT 模型

该研究介绍和评估了微小、迷你、小型和中型的非套壳土耳其 BERT 模型，旨在填补资源匮乏语言领域的研究差距。我们使用多个来源的超过 75GB 文本构建了这些模型的训练集，并在多个任务中进行了测试，包括掩码预测、情感分析、新闻分类和零样本分类。尽管模型规模较小，但我们的模型在保证计算效率和更快执行时间的同时，表现出了强大的性能，包括零样本任务。我们的发现对于发展和应用较小语言模型，特别是在土耳其语境下，提供了有价值的见解。

Jul, 2023

学习者英语的通用依存关系

TLE 是第一个提供公开的英语为第二语言的句法树库，它为来自剑桥英语第一证书（FCE）语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖（UD）树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。

May, 2016