利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用

Aug, 2023

利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用

Sentence Embedding Models for Ancient Greek Using Multilingual Knowledge Distillation

Kevin Krahn, Derrick Tate, Andrew C. Lamicela

TL;DR通过使用多语言知识蒸馏方法训练 BERT 模型，本研究为古希腊文本生成句子嵌入，借鉴了高资源语言的模型性质，同时使用了相对较少的翻译句子数据。通过创建一个平行语料库，将古希腊文档与英文译文进行对齐，并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。

Abstract

contextual language models have been trained on Classical languages, including Ancient Greek and Latin, for tasks such as lemmatization, morphological tagging, part of speech tagging, authorship attribution, and detection of scribal errors. However, high-quality →

contextual language models ancient greek text knowledge distillation multilingual sentence embedding

发现论文，激发创造

探索大型语言模型在古典学中的应用

本文提出了四种古希腊语言模型，包括单语和多语版本，使用 RoBERTa 和 T5 作为模型类型，基于模型对形态和句法任务进行评估，探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能，并为未来的研究提供了有用的信息。

May, 2023

Logion：希腊语学领域机器学习

利用机器学习方法，我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后，我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误，同时证明了该模型填补古代手稿材料损伤造成空缺的能力，并与领域专家的表现进行了比较。我们发现，在启发领域专家的模型建议的支持下，最佳表现可得。在考虑到人机协作的同时，我们还探索了模型的可解释性，并发现一些注意力头似乎对古代希腊语的某些语法特征进行了编码。

May, 2023

使用知识蒸馏将单语句子嵌入多语言

本文介绍了一种将现有的句子嵌入模型扩展到新语言的简便有效方法，训练基于将翻译后的句子映射到与原始句子相同的向量空间位置的思想，相较于其他多语言句子嵌入训练方法，具有扩展现有模型以增加新语言的简易性、保证向量空间所需属性的易操作性和较低的硬件要求等优势。代码已公开，可以用于将句子嵌入模型扩展到 400 多种语言。

Apr, 2020

GREEK-BERT：希腊人参观芝麻街

这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT，在三个 NLP 任务中表现优异，并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码，并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码，以推动现代希腊语的 NLP 研究和应用。

Aug, 2020

古罗马捕获席卷帝国的野蛮征服者。发现古希腊文学中的拉丁影射

本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa，通过跨古希腊、拉丁和英语的语义理解和相同句子识别，它能够有效地检测文本之间的内部互文参照。

Aug, 2023

拉丁 BERT: 古典语言学的上下文语言模型

我们介绍了 Latin BERT，它是一种针对拉丁语言的上下文语言模型。在多个案例研究中，我们展示了该模型在自然语言处理和传统学术研究中的多种应用，比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果，并通过查询上下文最近邻实现了语义上信息化的搜索。

Sep, 2020

LEALLA: 通过知识蒸馏学习轻量级、语言无关的句子嵌入

本研究使用轻量级模型系统地探索学习通用句子嵌入的方法，证明了一种深薄编码器可以构建 109 种语言的强韧低维句子嵌入，并通过引入知识蒸馏方法进一步提高模型性能。实验证明，如此轻量级模型在 Tatoeba，联合国和 BUCC 上展现了出色的效果，并在 TensorFlow Hub 上发布了名为 LEALLA 的语言无关句子嵌入模型。

Feb, 2023

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如 LASER 等。

Oct, 2022

一种无需特定语言训练数据的深度自然语言推理预测器

我们提出了一种 NLP 技术，利用通用翻译数据集和知识蒸馏技术，通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理，该技术在多个任务上展现了普适性。

Sep, 2023

GreekBART：第一个预训练的希腊序列到序列模型

本篇论文介绍了 GreekBART，这是第一个基于 BART-base 架构的 Seq2Seq 模型，经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现，并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。

Apr, 2023