Logion:希腊语学领域机器学习
本文提出了四种古希腊语言模型,包括单语和多语版本,使用 RoBERTa 和 T5 作为模型类型,基于模型对形态和句法任务进行评估,探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能,并为未来的研究提供了有用的信息。
May, 2023
通过使用多语言知识蒸馏方法训练 BERT 模型,本研究为古希腊文本生成句子嵌入,借鉴了高资源语言的模型性质,同时使用了相对较少的翻译句子数据。通过创建一个平行语料库,将古希腊文档与英文译文进行对齐,并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。
Aug, 2023
这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT,在三个 NLP 任务中表现优异,并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码,并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码,以推动现代希腊语的 NLP 研究和应用。
Aug, 2020
本文介绍了一种以 Open Information Extraction 为背景,旨在弥合高、低资源语言差距的方法,以希腊语为例进行了展示。我们使用 Transformer 架构构建英希和希英机器翻译模型,并利用这些模型产生希腊文本的英文翻译作为我们 NLP 管道的输入,通过一系列前处理和三元特征提取后,将提取的三元特征回译回希腊语。我们在基准数据集上对我们的 NMT 和 OIE 方法进行了评估,并证明了我们的方法优于希腊自然语言的当前最先进技术。
Mar, 2021
本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa,通过跨古希腊、拉丁和英语的语义理解和相同句子识别,它能够有效地检测文本之间的内部互文参照。
Aug, 2023
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023
本论文旨在为希腊自然语言处理(Greek NLP)领域开发一个基于语言学动机和技术相关的评估套件,通过引入四个专家验证的评估任务来实现这一目标,这些任务特别针对自然语言推理、词义消歧(通过示例比较或意义选择)和隐喻检测。同时,我们贡献了两个创新,既是我们推理数据集是首个标注所有可能的推理标签的数据集,也是通过使用 ChatGPT 作为语言中立的解析器以成本效率高的方式获取到面向资源不足语言的数据集。通过对每个任务进行实验,使用现有的最先进技术,我们确认了任务的挑战性,并强调希腊 NLP 生态系统需要加速进展以与当代主流研究保持同步的需求。
Sep, 2023
这篇论文介绍了 Pythia,它是第一个使用深度神经网络从损坏的文本中恢复缺失字符的古代文本修复模型,在 PHI-ML 上实现了 30.1% 的字符错误率并在古代文字修复领域达到了最新水平。
Oct, 2019
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022