探索大型语言模型在古典学中的应用
通过使用多语言知识蒸馏方法训练 BERT 模型,本研究为古希腊文本生成句子嵌入,借鉴了高资源语言的模型性质,同时使用了相对较少的翻译句子数据。通过创建一个平行语料库,将古希腊文档与英文译文进行对齐,并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。
Aug, 2023
这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT,在三个 NLP 任务中表现优异,并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码,并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码,以推动现代希腊语的 NLP 研究和应用。
Aug, 2020
利用机器学习方法,我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后,我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误,同时证明了该模型填补古代手稿材料损伤造成空缺的能力,并与领域专家的表现进行了比较。我们发现,在启发领域专家的模型建议的支持下,最佳表现可得。在考虑到人机协作的同时,我们还探索了模型的可解释性,并发现一些注意力头似乎对古代希腊语的某些语法特征进行了编码。
May, 2023
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa,通过跨古希腊、拉丁和英语的语义理解和相同句子识别,它能够有效地检测文本之间的内部互文参照。
Aug, 2023
我们使用适配器框架基于参数高效的微调开发了一种简单、统一和计算轻量级的方法,应用于古代和历史语言的词嵌入评估,形态标注,POS 标记,词义化和字符和词级别的填充等任务,并在所有任务和 16 种语言上均匀应用了相同的适配器方法。我们的研究结果显示了在现代语言上预训练的语言模型通过适配器训练可以适应历史和古代语言的可行性。
Apr, 2024
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023
本文介绍了在西班牙语语料库上预训练的著名编码器 - 解码器架构 ——BART、T5 和 BERT2BERT 风格模型。通过对各种序列到序列任务(包括摘要、改写和生成式问答)的综合评估,我们发现所有模型的性能竞争力,其中 BART 和 T5 在所有评估任务中表现最好。此外,我们还将所有模型公开提供给研究社区,促进西班牙语语言处理领域的未来探索和发展。
Sep, 2023
本文提供了一份全面的研究报告,比较了用于西班牙语的语言模型,报告显示:先前被忽略的大型跨语言模型比单语模型表现更好,单语模型的结果并不是确定性的,需要进一步研究语料库大小、质量和预训练技术等因素。
Dec, 2022