利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用
本文提出了四种古希腊语言模型,包括单语和多语版本,使用 RoBERTa 和 T5 作为模型类型,基于模型对形态和句法任务进行评估,探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能,并为未来的研究提供了有用的信息。
May, 2023
利用机器学习方法,我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后,我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误,同时证明了该模型填补古代手稿材料损伤造成空缺的能力,并与领域专家的表现进行了比较。我们发现,在启发领域专家的模型建议的支持下,最佳表现可得。在考虑到人机协作的同时,我们还探索了模型的可解释性,并发现一些注意力头似乎对古代希腊语的某些语法特征进行了编码。
May, 2023
本文介绍了一种将现有的句子嵌入模型扩展到新语言的简便有效方法,训练基于将翻译后的句子映射到与原始句子相同的向量空间位置的思想,相较于其他多语言句子嵌入训练方法,具有扩展现有模型以增加新语言的简易性、保证向量空间所需属性的易操作性和较低的硬件要求等优势。代码已公开,可以用于将句子嵌入模型扩展到 400 多种语言。
Apr, 2020
这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT,在三个 NLP 任务中表现优异,并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码,并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码,以推动现代希腊语的 NLP 研究和应用。
Aug, 2020
本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa,通过跨古希腊、拉丁和英语的语义理解和相同句子识别,它能够有效地检测文本之间的内部互文参照。
Aug, 2023
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
本研究使用轻量级模型系统地探索学习通用句子嵌入的方法,证明了一种深薄编码器可以构建 109 种语言的强韧低维句子嵌入,并通过引入知识蒸馏方法进一步提高模型性能。实验证明,如此轻量级模型在 Tatoeba,联合国和 BUCC 上展现了出色的效果,并在 TensorFlow Hub 上发布了名为 LEALLA 的语言无关句子嵌入模型。
Feb, 2023
我们提出了一种 NLP 技术,利用通用翻译数据集和知识蒸馏技术,通过两个预训练模型在源语言和目标语言上的表现实现了目标语言的句子关系推理,该技术在多个任务上展现了普适性。
Sep, 2023
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023