普鲁塔克的阴影中的 BERT
本研究介绍了一种适用于古典语言学的三语句子 RoBERTa 模型 SPhilBERTa,通过跨古希腊、拉丁和英语的语义理解和相同句子识别,它能够有效地检测文本之间的内部互文参照。
Aug, 2023
本文提出了四种古希腊语言模型,包括单语和多语版本,使用 RoBERTa 和 T5 作为模型类型,基于模型对形态和句法任务进行评估,探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能,并为未来的研究提供了有用的信息。
May, 2023
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
利用机器学习方法,我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后,我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误,同时证明了该模型填补古代手稿材料损伤造成空缺的能力,并与领域专家的表现进行了比较。我们发现,在启发领域专家的模型建议的支持下,最佳表现可得。在考虑到人机协作的同时,我们还探索了模型的可解释性,并发现一些注意力头似乎对古代希腊语的某些语法特征进行了编码。
May, 2023
当一个文本经历多次改写后,它是否保留了原始的作者身份是一个有趣的问题。我们的研究探讨了使用大型语言模型(LLMs)或类似的改写工具对文本进行改写时,关于作者身份的确定应该归属于原始人类作者还是 AI 动力工具的独立能力,讨论了作者的归属问题。
Nov, 2023
通过使用多语言知识蒸馏方法训练 BERT 模型,本研究为古希腊文本生成句子嵌入,借鉴了高资源语言的模型性质,同时使用了相对较少的翻译句子数据。通过创建一个平行语料库,将古希腊文档与英文译文进行对齐,并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。
Aug, 2023
本文介绍了使用人工智能翻译工具 ChatGPT 来翻译早期拉丁科学文献的可行性,并通过基准测试验证 ChatGPT 的良好性能,之后将该工具应用于从 Johann Bernoulli 写给 Euler 的 1739 年信函摘录中验证了该翻译工具的价值。
Jul, 2023
本文探讨了当代人工智能(特别是自然语言处理)进展在多大程度上直接追溯到奥地利 - 英国哲学家路德维希・维特根斯坦的开创性工作和思想,着重关注他的后期观点,并讨论了人工智能的优缺点。
Feb, 2023
这篇论文介绍了一种基于 BERT 的希腊语语言模型 GREEK-BERT,在三个 NLP 任务中表现优异,并比其它多语种 Transformer 模型和基于预训练词嵌入的基线模型表现更好。研究人员已经公开了 GREEK-BERT 和训练代码,并提供如何将 GREEK-BERT fine-tune 用于下游 NLP 任务的代码,以推动现代希腊语的 NLP 研究和应用。
Aug, 2020