Mar, 2024

古希腊语——Opera Graeca Adnotata的34M+令牌多层语料库构建

TL;DROpera Graeca Adnotata (OGA) 是最大的开放获取多层次古希腊语语料库,提供了1,687个文学作品和超过34M个标记,这些作品来自于PerseusDL和OpenGreekAndLatin GitHub资料库。该语料库中的文本经过七个注释层的丰富,包括了分词、句子分割、词形和句法等多个层次的注释,同时以PAULA XML和LAULA XML格式发布,以提高可扩展性和可重复使用性。