Logion：希腊语学领域机器学习

May, 2023

Logion: Machine Learning for Greek Philology

Charlie Cowen-Breen, Creston Brooks, Johannes Haubold, Barbara Graziosi

TL;DR利用机器学习方法，我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后，我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误，同时证明了该模型填补古代手稿材料损伤造成空缺的能力，并与领域专家的表现进行了比较。我们发现，在启发领域专家的模型建议的支持下，最佳表现可得。在考虑到人机协作的同时，我们还探索了模型的可解释性，并发现一些注意力头似乎对古代希腊语的某些语法特征进行了编码。

Abstract

This paper presents machine-learning methods to address various problems in greek philology. After training a BERT model on the largest premodern Greek dataset used for this purpose to date, we identify and correct previously undetected errors made by scribes in the process of

machine learning greek philology premodern manuscripts textual transmission attention heads

发现论文，激发创造

探索大型语言模型在古典学中的应用

本文提出了四种古希腊语言模型，包括单语和多语版本，使用 RoBERTa 和 T5 作为模型类型，基于模型对形态和句法任务进行评估，探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能，并为未来的研究提供了有用的信息。

May, 2023

利用多语言知识蒸馏的句子嵌入模型在古希腊语中的应用

通过使用多语言知识蒸馏方法训练 BERT 模型，本研究为古希腊文本生成句子嵌入，借鉴了高资源语言的模型性质，同时使用了相对较少的翻译句子数据。通过创建一个平行语料库，将古希腊文档与英文译文进行对齐，并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。

Aug, 2023

GREEK-BERT：希腊人参观芝麻街

这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT，在三个 NLP 任务中表现优异，并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码，并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码，以推动现代希腊语的 NLP 研究和应用。

Aug, 2020

PENELOPIE: 基于机器翻译实现希腊语开放式信息提取

本文介绍了一种以 Open Information Extraction 为背景，旨在弥合高、低资源语言差距的方法，以希腊语为例进行了展示。我们使用 Transformer 架构构建英希和希英机器翻译模型，并利用这些模型产生希腊文本的英文翻译作为我们 NLP 管道的输入，通过一系列前处理和三元特征提取后，将提取的三元特征回译回希腊语。我们在基准数据集上对我们的 NMT 和 OIE 方法进行了评估，并证明了我们的方法优于希腊自然语言的当前最先进技术。

Mar, 2021

古罗马捕获席卷帝国的野蛮征服者。发现古希腊文学中的拉丁影射

本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa，通过跨古希腊、拉丁和英语的语义理解和相同句子识别，它能够有效地检测文本之间的内部互文参照。

Aug, 2023

拉丁 BERT: 古典语言学的上下文语言模型

我们介绍了 Latin BERT，它是一种针对拉丁语言的上下文语言模型。在多个案例研究中，我们展示了该模型在自然语言处理和传统学术研究中的多种应用，比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果，并通过查询上下文最近邻实现了语义上信息化的搜索。

Sep, 2020

GreekBART：第一个预训练的希腊序列到序列模型

本篇论文介绍了 GreekBART，这是第一个基于 BART-base 架构的 Seq2Seq 模型，经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现，并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。

Apr, 2023

OYXOY：用于现代希腊语的现代自然语言处理测试套件

本论文旨在为希腊自然语言处理（Greek NLP）领域开发一个基于语言学动机和技术相关的评估套件，通过引入四个专家验证的评估任务来实现这一目标，这些任务特别针对自然语言推理、词义消歧（通过示例比较或意义选择）和隐喻检测。同时，我们贡献了两个创新，既是我们推理数据集是首个标注所有可能的推理标签的数据集，也是通过使用 ChatGPT 作为语言中立的解析器以成本效率高的方式获取到面向资源不足语言的数据集。通过对每个任务进行实验，使用现有的最先进技术，我们确认了任务的挑战性，并强调希腊 NLP 生态系统需要加速进展以与当代主流研究保持同步的需求。

Sep, 2023

使用深度学习恢复古代文本：以希腊铭文为案例研究

这篇论文介绍了 Pythia，它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型，在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。

Oct, 2019

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022